[论文推荐]ARC-AGI-2发布:下一代AI推理基准测试,顶尖模型仅得3%
talkingdev • 2025-05-21
5079 views
由François Chollet和ARC Prize团队推出的ARC-AGI-2基准测试,作为抽象推理领域的新一代评估标准,其难度较前代显著提升。初步测试结果显示,即便是最先进的AI系统也表现不佳,其中o3模型仅获得3%的准确率,远低于原版测试中的53%。相比之下,人类参与者的平均成绩高达75%。为加速技术突破,ARC Prize 2025竞赛设立了总额100万美元的奖金池,其中70万美元将授予首个达到85%准确率的团队。这一进展突显了当前AI系统在复杂推理任务上的局限性,同时也为通用人工智能(AGI)的发展设立了更具挑战性的标杆。
核心要点
- ARC-AGI-2基准测试难度大幅提升,顶尖AI模型准确率骤降至3%
- 人类参与者平均成绩达75%,展现显著认知优势
- ARC Prize 2025设立百万美元奖金,推动AGI推理能力突破