AI科学发现能力大考：艾伦AI研究所新基准揭示，顶尖智能体仍难匹敌人类科学家

talkingdev • 2026-04-16

284540 views

在人工智能领域，众多团队宣称其研发的智能体具备卓越的科学发现能力，但支撑这些声明的证据往往难以令人信服。为客观评估AI在科学探索中的真实水平，艾伦人工智能研究所（AI2）开发并开源了两项关键基准测试：ScienceWorld与DiscoveryWorld。ScienceWorld旨在测试AI智能体能否在近似小学科学课的水平上“重新发现”经典科学原理，而DiscoveryWorld则挑战更具开放性的大学乃至博士级别的科学探索任务。这些基准测试的初步结果显示，即便是当前最先进的AI科学智能体，在面对人类科学家能够常规解决的问题时，仍面临显著挑战。这一发现不仅为衡量AI科学代理的实际能力提供了标准化工具，也对当前过度炒作AI科学发现能力的行业现象提出了重要警示，凸显了在构建真正具备创造性科学思维的人工智能道路上，我们仍需跨越的鸿沟。

核心要点

艾伦AI研究所发布ScienceWorld和DiscoveryWorld两项基准，旨在客观评估AI智能体的科学发现能力。
测试表明，当前顶尖的AI科学智能体在解决人类科学家可常规处理的问题时仍存在明显困难。
这两项开源基准为行业提供了标准化评估工具，有助于纠正对AI科学发现能力的过度宣传。

AI科学发现能力大考：艾伦AI研究所新基准揭示，顶尖智能体仍难匹敌人类科学家

核心要点

Related posts