加州大学伯克利分校的研究团队近日发表博客文章,详细阐述了他们在构建可信赖的AI智能体基准测试方面取得的突破性进展。文章指出,当前许多流行的AI智能体基准测试存在设计缺陷,容易被特定策略“破解”或产生误导性结...
Read More近日,GitHub上开源了一个名为Claw-Eval的评估框架,专门用于评估大型语言模型作为智能体的能力。该框架的核心价值在于其构建了一个全面且经过人类验证的基准测试集,涵盖了139项多样化的真实世界任务。与以往许多依...
Read MoreMeta与Hugging Face联合发布了开源框架OpenEnv,该框架旨在通过标准化的gym风格API和MCP工具接口,统一AI智能体与真实、有状态环境(如操作系统、应用程序)的交互方式。这一举措标志着AI智能体评估从封闭的模拟环境...
Read More