语言模型(LLMs)的实用性在于其速度、准确性以及遵循指令的能力。这三个特性使得通过文本输入控制的街头霸王模拟器成为了衡量不同模型在这三个方面表现的绝佳方式。GitHub上的一个项目通过这种方式为LLMs提供了一个...
Read MoreAnthropic公司最新推出的Claude 3 Haiku AI模型,以其卓越的速度和经济性成为目前市场上最快的AI模型。该模型具备先进的视觉能力,并在各项基准测试中表现突出。Claude 3 Haiku专为企业设计,注重速度和可负担性,为...
Read MoreCognition发布了一款名为Devin的新系统,该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数,而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。
Read More评估语言模型通常采用手动策划的基准测试。其中一些基准测试非常大,有些超过14k个示例,这导致评估成本和噪声很高。这项工作表明,您可以可靠地评估流行基准测试中的语言模型性能,只需使用100个示例即可。
Read MoreInflection近日推出了一款新模型,为其个人助手Pi提供支持。该模型表现与GPT-4相当,在基准测试中具备出色的推理能力,达到了94%的成绩。Inflection声称,相对于GPT-4,该模型训练所需的计算资源仅占40%。有意思的是...
Read MoreAnthropic发布的Claude 3是一个大型语言模型,可与GPT-4相媲美,它不仅在基准测试中表现出色,而且在交互质量上独具人类特色,具有创造性和自然性,使其成为AI与作家创意合作能力的重大进展。
Read MoreEmissary发布了一个基准测试平台,可以使开发人员在他们自己的条件下快速可靠地评估提示并管理模型迁移和回归。通过自动LLM辅助评估或将评级外包给Emissary,生成和扩展测试集,定义自定义指标,并协作地手动团队评...
Read More