人工智能评估机构Artificial Analysis最新推出AA-Omniscience基准测试体系,该体系针对40余个专业领域的大语言模型知识储备与幻觉现象进行系统性评估。测试结果显示,在关键指标上仅有三个模型能够保持正确回答率高...
Read More由François Chollet和ARC Prize团队推出的ARC-AGI-2基准测试,作为抽象推理领域的新一代评估标准,其难度较前代显著提升。初步测试结果显示,即便是最先进的AI系统也表现不佳,其中o3模型仅获得3%的准确率,远低于原...
Read MoreARC Prize基金会近期采用ARC-AGI基准对OpenAI最新发布的o3-medium和o4-mini模型进行了系统评估。测试结果显示,o3-medium在基础版ARC-AGI-1测试中表现突出,但在需要高阶推理能力的ARC-AGI-2挑战集上未能取得突破性...
Read More