知识可靠性的相关内容 - 漫话开发者

2025-11-18 talkingdev

AA-Omniscience基准发布：Claude 4.1 Opus在40+主题知识幻觉测试中夺魁

人工智能评估机构Artificial Analysis最新推出AA-Omniscience基准测试体系，该体系针对40余个专业领域的大语言模型知识储备与幻觉现象进行系统性评估。测试结果显示，在关键指标上仅有三个模型能够保持正确回答率高...