[论文推荐]ARC-AGI-2发布：下一代AI推理基准测试，顶尖模型仅得3%

talkingdev • 2025-05-21

1247813 views

由François Chollet和ARC Prize团队推出的ARC-AGI-2基准测试，作为抽象推理领域的新一代评估标准，其难度较前代显著提升。初步测试结果显示，即便是最先进的AI系统也表现不佳，其中o3模型仅获得3%的准确率，远低于原版测试中的53%。相比之下，人类参与者的平均成绩高达75%。为加速技术突破，ARC Prize 2025竞赛设立了总额100万美元的奖金池，其中70万美元将授予首个达到85%准确率的团队。这一进展突显了当前AI系统在复杂推理任务上的局限性，同时也为通用人工智能（AGI）的发展设立了更具挑战性的标杆。

核心要点

ARC-AGI-2基准测试难度大幅提升，顶尖AI模型准确率骤降至3%
人类参与者平均成绩达75%，展现显著认知优势
ARC Prize 2025设立百万美元奖金，推动AGI推理能力突破

[论文推荐]ARC-AGI-2发布：下一代AI推理基准测试，顶尖模型仅得3%

核心要点

Related posts