大语言模型评估的相关内容 - 漫话开发者

2025-11-18 talkingdev

AA-Omniscience基准发布：Claude 4.1 Opus在40+主题知识幻觉测试中夺魁

人工智能评估机构Artificial Analysis最新推出AA-Omniscience基准测试体系，该体系针对40余个专业领域的大语言模型知识储备与幻觉现象进行系统性评估。测试结果显示，在关键指标上仅有三个模型能够保持正确回答率高...

2025-05-06 talkingdev

LRAGE（Legal RAG Evaluation Toolkit）是一个开源的评估框架，专门用于在法律领域的检索增强生成（RAG）任务中评估大语言模型（LLM）的性能。该工具包集成了多种数据集和评估工具，为研究人员提供了一个全面的平台...

2025-04-21 talkingdev

Meta旗下Facebook Research团队推出的ZeroSumEval Benchmark在GitHub开源，这一动态评估框架通过竞争性多智能体模拟，为大语言模型（LLM）在推理、知识储备和规划任务等核心能力维度建立了全新测试范式。该框架创新...

2025-04-17 talkingdev

近日，知名开源社区Hugging Face对其HELMET基准测试进行了重要升级。这一更新不仅扩展了测试覆盖的模型范围，还提供了更深入的性能洞察，特别针对当前热门的Phi-4和Jamba 1.6等长上下文大语言模型（LLM）。HELMET基...