ColBERT是一个出色的模型,用于为RAG应用嵌入查询和索引数据。本文探讨了该方法背后的直觉,并进行了一些基准测试。ColBERT的特点在于,它将查询和文档嵌入到一个共享空间中,从而可以直接在该空间中进行相似性匹配...
Read More近日,研发团队宣布推出了AgentBoard,一款专为多轮LLM代理设计的基准测试工具。AgentBoard不仅可以评估LLM代理的最终成功率,还提供了分析评估板以进行更详细的模型评估。这款工具可以更全面地评估LLM代理,为LLM代...
Read MoreAdept公司扩大了其Fuyu架构并训练了一个更大的版本,目前是MMMU上排名第三的最佳模型之一。该模型在其他任务中也表现良好(例如,在HumanEval编码基准测试中达到40+)。与其他替代方案相比,扩展此架构的挑战较少,...
Read More这篇技术报告介绍了MMCBench,这是一个新的基准测试,旨在测试各种任务如文本到图像和语音到文本等情况下大型多模型(LMMs)的一致性和可靠性。该测试涵盖了超过100个流行模型,旨在提高读者对这些AI系统在现实世界...
Read MoreTACO是一个新的基准,用于评估系统生成代码的能力。它比现有数据集大得多,包含更具挑战性的问题。在简单的问题上,GPT-4的正确率达到30%,而在最难的问题子集上,它仅能达到2%。
Read More最近的基准测试显示,GPT-4成功完成了70%的编程任务,而GPT-4 Turbo略微落后,仅达到了68.8%。有趣的是,GPT-4 Turbo需要更多的第二次尝试,这表明它可能缺乏GPT-4的记忆能力。随后的测试证实了这一点。
Read More去年最好的编码模型之一是DeepSeek LLM。它在许多基准测试中接近GPT-3.5(即使它可能是3倍大小)。有关模型训练,令牌计数,模型架构等的信息已在技术报告中发布。DeepSeek LLM是一种基于语言模型的编码器,它使用自...
Read MoreMI300X是AMD的旗舰人工智能加速器。随着ROCm 6的推出,它现在在推理工作负载方面接近于NVIDIA的性能。这对社区来说是个好消息,因为它为新兴的人工智能公司打开了使用替代芯片的可能性。
Read More近期,Triton手写常见模型梯度加速 AI 训练的项目备受关注。该项目手写了一些常见模型的梯度,以加速训练过程。尽管该项目的基准测试结果并不是最具说服力的,但这是一项非常值得尝试的努力。根据测试结果,该项目能...
Read More在需要专业知识的领域中使用语言模型时,可以进行微调或使用某些检索技术。但两者都有缺点。这种新颖的方法使用自动生成的合成数据来更好地学习测试时的信息。它在标准适应基准测试中显示出比微调和RAG更好的表现。
Read More