漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-01 talkingdev

开源|ENACT基准发布:以第一人称世界模型评估具身认知能力

近日,一个名为ENACT的新型基准测试在人工智能与认知科学交叉领域引发关注。该基准旨在通过第一人称视角的世界建模来系统评估智能体的具身认知能力。具身认知理论认为,智能体的认知过程与其物理身体及与环境的实时...

Read More
2025-11-18 talkingdev

AA-Omniscience基准发布:Claude 4.1 Opus在40+主题知识幻觉测试中夺魁

人工智能评估机构Artificial Analysis最新推出AA-Omniscience基准测试体系,该体系针对40余个专业领域的大语言模型知识储备与幻觉现象进行系统性评估。测试结果显示,在关键指标上仅有三个模型能够保持正确回答率高...

Read More
2025-05-21 talkingdev

[论文推荐]ARC-AGI-2发布:下一代AI推理基准测试,顶尖模型仅得3%

由François Chollet和ARC Prize团队推出的ARC-AGI-2基准测试,作为抽象推理领域的新一代评估标准,其难度较前代显著提升。初步测试结果显示,即便是最先进的AI系统也表现不佳,其中o3模型仅获得3%的准确率,远低于原...

Read More
2025-04-24 talkingdev

ARC-AGI基准测试揭示OpenAI新模型o3与o4-mini推理能力差异

ARC Prize基金会近期采用ARC-AGI基准对OpenAI最新发布的o3-medium和o4-mini模型进行了系统评估。测试结果显示,o3-medium在基础版ARC-AGI-1测试中表现突出,但在需要高阶推理能力的ARC-AGI-2挑战集上未能取得突破性...

Read More
2023-09-01 talkingdev

Meta发布新的AI基准FACET,旨在评估AI模型的“公平性”

Meta最近发布了一种新的人工智能基准,名为FACET。这种基准旨在评估AI模型在图像和视频中分类和检测物体,包括人物的“公平性”。公平性在AI领域是一个重要的话题,因为AI模型往往会复制并放大现实世界的偏见。通过FAC...

Read More