TACO是一个新的基准,用于评估系统生成代码的能力。它比现有数据集大得多,包含更具挑战性的问题。在简单的问题上,GPT-4的正确率达到30%,而在最难的问题子集上,它仅能达到2%。
Read More最近的基准测试显示,GPT-4成功完成了70%的编程任务,而GPT-4 Turbo略微落后,仅达到了68.8%。有趣的是,GPT-4 Turbo需要更多的第二次尝试,这表明它可能缺乏GPT-4的记忆能力。随后的测试证实了这一点。
Read More去年最好的编码模型之一是DeepSeek LLM。它在许多基准测试中接近GPT-3.5(即使它可能是3倍大小)。有关模型训练,令牌计数,模型架构等的信息已在技术报告中发布。DeepSeek LLM是一种基于语言模型的编码器,它使用自...
Read MoreMI300X是AMD的旗舰人工智能加速器。随着ROCm 6的推出,它现在在推理工作负载方面接近于NVIDIA的性能。这对社区来说是个好消息,因为它为新兴的人工智能公司打开了使用替代芯片的可能性。
Read More近期,Triton手写常见模型梯度加速 AI 训练的项目备受关注。该项目手写了一些常见模型的梯度,以加速训练过程。尽管该项目的基准测试结果并不是最具说服力的,但这是一项非常值得尝试的努力。根据测试结果,该项目能...
Read More在需要专业知识的领域中使用语言模型时,可以进行微调或使用某些检索技术。但两者都有缺点。这种新颖的方法使用自动生成的合成数据来更好地学习测试时的信息。它在标准适应基准测试中显示出比微调和RAG更好的表现。
Read More当新的模型拥有惊人的性能时,人们往往会质疑它们是否真的是在验证数据或基准测试上得到了训练。去污是从输入中删除此类测试数据的过程。LMSYS团队发现,如果你重新表述测试数据,使其通过去污,但仍包含关于基准测...
Read More