漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-18 talkingdev

AA-Omniscience基准发布:Claude 4.1 Opus在40+主题知识幻觉测试中夺魁

人工智能评估机构Artificial Analysis最新推出AA-Omniscience基准测试体系,该体系针对40余个专业领域的大语言模型知识储备与幻觉现象进行系统性评估。测试结果显示,在关键指标上仅有三个模型能够保持正确回答率高...

Read More