该项目引入了AgentBench,一个用于测试大型语言模型(LLMs)在各种交互环境中的基准工具。在对25个LLMs进行的初步测试中,结果显示商业模型的表现超过了开源模型。这项研究为我们理解和评估大型语言模型的交互性能提供...
Read More最近获得2000万美元投资的together公司,已经对Llama 2进行了微调,通过在位置嵌入上进行线性扩展,使其在处理上下文时可以处理高达32k的token。他们在许多有趣的基准测试中进行了测试,但是他们警告说,现代语言模...
Read More新的算法“思考者”引入了一种独特的方法,使人工智能能够独立地与模拟环境交互并从中学习,从而提高其制定战略计划的能力。在推箱子游戏和雅达利2600基准测试中,该算法展现了顶级的性能,为AI的强化学习提供了一种新...
Read More最新研究引入了一种名为SAM-PT的新系统,该系统利用Segment Anything Model (SAM)来提高视频中对象的追踪和分割效果。在多个视频分割基准测试中,SAM-PT表现出卓越的性能。SAM-PT的优势在于其对对象的分割和追踪能力...
Read MoreMeta公司发布了新的开源AI语言模型家族Llama 2,其许可证允许其被整合到商业产品中。这些模型的大小从70亿参数到7亿参数不等,据报道,它们在大多数基准测试中表现优于其他开源聊天模型。Llama 2已在Microsoft Azure...
Read More近日,一种开源代码模型在编码任务中表现超越ChatGPT等语言模型。封闭模型之所以强大,是因为它们实际上是伪装成语言模型的代码模型。很多开放式语言模型表现不佳,因为它们无法从大规模的代码预训练中获得推理能力...
Read More研究人员提出了竞争性基准测试系统"AlgoPerf",旨在公平评估各种深度学习算法的训练效果,并为未来的改进奠定基础。这一研究解决了比较和改进深度学习训练算法的挑战,这些算法是加速数据处理、节省资源和创建准确模...
Read MoreTWIST是一种新的训练语音语言模型(SpeechLMs)的方法,它使用预先训练的文本模型来进行热启动。该方法优于从头开始训练,经验分析强调了模型和数据集规模的重要性。这项研究介绍了迄今为止最大的SpeechLM,并引入了...
Read More