本文探讨了评估LLM的挑战,将其与人类员工评估进行比较。文章讨论了衡量LLM智能和实用性的困难,突出了当前评估方法的局限性和需要更有效方法的必要性。在人工智能领域,评估是至关重要的,因为它决定了LLM的质量和...
Read MoreAlphaCodium推出了一种新颖的方法来增强LLMs的代码生成能力。这种多阶段、基于测试的迭代过程显著提高了像GPT-4这样的模型在解决复杂编程问题时的准确性,如在CodeContests数据集上所展示的。
Read More最近,一种名为DoraemonGPT的新型AI系统基于大型语言模型取得了重要进展,它聚焦于视频任务,提升了对于动态现实场景的理解。DoraemonGPT将视频转换为符号记忆,以进行高效的时空查询,并利用专门的工具和新颖的规划...
Read MoreAnthropic发布了一项非常有趣的研究,该研究有意将语言模型中的“睡眠短语”进行有害污染。研究发现,它无法将这种模型与用于生产模型的强大系统进行“对齐”。也就是说,一旦模型被污染,就无法使用当前的工具消除不良...
Read More研究人员开发了一种新的多学科协作框架,以提高大型语言模型在医学领域的理解和推理能力。这种方法涉及到AI代理,扮演一起分析、讨论和达成共识的医学主题的角色扮演游戏。
Read MoreSpeechAgents是一个多模态人工智能系统,能够以惊人的真实度模拟人类的交流。这个系统由多模态LLM支持,可以处理多达25个代理人。它可以通过模仿人类对话,包括连贯的内容、真实的节奏和表达丰富的情感,来创造戏剧...
Read MorePortkey AI最近开源了LLM Gateway,实现了多个不同语言模型之间的路由。这个开源项目旨在简化在不同的语言模型之间进行选择和路由的过程,从而更好地利用不同模型的优势,提高语言模型的整体性能。 LLM Gateway是一...
Read More去年最好的编码模型之一是DeepSeek LLM。它在许多基准测试中接近GPT-3.5(即使它可能是3倍大小)。有关模型训练,令牌计数,模型架构等的信息已在技术报告中发布。DeepSeek LLM是一种基于语言模型的编码器,它使用自...
Read More