近期,Ada-LEval这一新基准测试的发布,旨在严格评估大型语言模型处理长篇及超长文本的理解能力。随着人工智能技术的不断进步,语言模型在处理文本信息方面的能力也越来越受到关注。Ada-LEval的推出,不仅为研究人员...
Read More近日,GitHub上发布了一项新的基准测试工具——化学工作台(Chemistry Bench),旨在评估大型语言模型在处理化学问题方面的能力。该工具与Big-Bench兼容,能够对语言模型的科学素养进行有效衡量。化学工作台通过一系列...
Read MoreMLPerf 近日更新了其推理基准测试,新增了如 Llama 2 70B 和 Stable Diffusion XL 等大型语言模型,这一变化体现了整个行业对于大型生成型人工智能的转移。在最新测试中,Nvidia 的系统,尤其是搭载了 H200 处理器的...
Read More研究人员近日推出了ReaLMistake基准测试工具,该工具专注于系统性地检测大型语言模型(LLM)响应中的错误。随着人工智能技术的发展,大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而,这些模型在生成文...
Read More一款名为SWE-agent的开源软件代理在软件工程(SWE)基准测试中取得了12%的成功率,覆盖率达到100%。该代理利用GPT-4技术辅助编写软件并解决PRs(Pull Requests)。此代理的出现,不仅展示了人工智能在软件开发领域的潜...
Read More英伟达在其GitHub仓库Optimum-Nvidia中发布了TensorRT的最新更新,这一更新使得AI推理速度大幅提高,达到了比基线快28倍的速度。特别是在Llama 2的基准测试中,能够达到每秒处理1200个令牌的惊人速度。这一进步得益...
Read More视觉语言模型(VLMs)在处理输入图像时,有时会遇到无法回答的问题。即便是最先进的VLMs,如GPT-4V,也面临这一挑战。本文提出了一个针对VLMs在面对无解问题时的基准测试,并探讨了一些可能的改进方向。研究者们通过...
Read More苹果公司的人工智能研究人员开发了一种新型系统ReALM,该系统通过考虑屏幕上的内容、对话中的实体以及背景信息,增强了Siri理解上下文的能力。在基准测试中,ReALM系统的性能超过了ChatGPT 4.0。这一突破性的技术进...
Read More