基准测试的相关内容 - 漫话开发者

2024-04-12 talkingdev

Mistral推出新型8x22B模型，性能卓越

Mistral公司近日发布了一款新型的8x22B模型，并通过磁力链接供用户下载体验。根据社区首批基准测试结果显示，该模型作为基础模型表现突出，其77 MMLU（与推理能力密切相关的指标）得分令人瞩目。这一新模型的出现，...

2024-04-11 talkingdev

Anthropic公司开发的Beta工具使用API，在伯克利函数调用基准测试中，有50%的案例表现优于GPT-4 Turbo。这一测试主要评估AI工具在调用函数和解决问题方面的能力。Anthropic的Beta工具展现出了更高效的问题解决能力和...

2024-04-11 talkingdev

Elon Musk旗下的xAI公司近日推出了Grok-1.5人工智能系统，该系统在数学和编程方面的处理能力得到了显著提升。与前一版本相比，Grok-1.5在性能上有大幅度提升，并在与业界领先的AI模型如GPT-4的竞争性基准测试中表现...

2024-04-11 talkingdev

近期，Ada-LEval这一新基准测试的发布，旨在严格评估大型语言模型处理长篇及超长文本的理解能力。随着人工智能技术的不断进步，语言模型在处理文本信息方面的能力也越来越受到关注。Ada-LEval的推出，不仅为研究人员...

2024-04-10 talkingdev

近日，GitHub上发布了一项新的基准测试工具——化学工作台（Chemistry Bench），旨在评估大型语言模型在处理化学问题方面的能力。该工具与Big-Bench兼容，能够对语言模型的科学素养进行有效衡量。化学工作台通过一系列...

2024-04-08 talkingdev

MLPerf 近日更新了其推理基准测试，新增了如 Llama 2 70B 和 Stable Diffusion XL 等大型语言模型，这一变化体现了整个行业对于大型生成型人工智能的转移。在最新测试中，Nvidia 的系统，尤其是搭载了 H200 处理器的...

2024-04-08 talkingdev

研究人员近日推出了ReaLMistake基准测试工具，该工具专注于系统性地检测大型语言模型（LLM）响应中的错误。随着人工智能技术的发展，大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而，这些模型在生成文...

2024-04-03 talkingdev

一款名为SWE-agent的开源软件代理在软件工程(SWE)基准测试中取得了12%的成功率，覆盖率达到100%。该代理利用GPT-4技术辅助编写软件并解决PRs（Pull Requests）。此代理的出现，不仅展示了人工智能在软件开发领域的潜...