Meta与Hugging Face联合发布了开源框架OpenEnv,该框架旨在通过标准化的gym风格API和MCP工具接口,统一AI智能体与真实、有状态环境(如操作系统、应用程序)的交互方式。这一举措标志着AI智能体评估从封闭的模拟环境...
Read More智谱AI正式发布了其新一代开源大模型GLM-5,该模型以MIT许可证开源,参数量达到惊人的7540亿,是前代GLM-4.7(3680亿参数)规模的两倍以上。在技术性能上,GLM-5在广泛的学术基准测试中相比GLM-4.7实现了显著提升,...
Read MoreMeta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...
Read More近期,AI研究领域围绕开源与闭源模型的发展路径展开了激烈讨论。专家Nathan Lambert提出一个核心论断:开源模型在性能上可能永远无法完全追上闭源模型。这并非意味着开源模式失败,而是揭示了其独特的战略价值。闭源...
Read More人工智能研究公司Anthropic正式发布了其旗舰模型Claude Opus的最新版本——Claude Opus 4.6。此次升级标志着大语言模型在专业应用领域的能力边界再次被拓展。该模型在智能体编码、计算机使用、工具调用、信息检索及金...
Read More人工智能公司Anthropic正式发布了其旗舰模型Claude Opus的最新版本——Claude Opus 4.6。此次升级标志着大模型在智能体能力、任务持久性和复杂场景应用上取得了显著进步。该模型在智能体编码、计算机使用、工具调用、...
Read More近日,Qodo公司宣布开发出一套全新的、严谨的AI代码审查基准测试方法,旨在对各类AI辅助代码审查系统进行客观、量化的性能评估。该基准测试的创新之处在于,其并非使用人工构造的简单代码片段,而是将多种类型的缺陷...
Read More近日,一项名为SWE-Universe的研究提出了一种革命性的可扩展框架,旨在从GitHub的拉取请求中自动构建真实世界的软件工程可验证环境。该研究成功解决了自动化构建中长期存在的三大挑战:构建成功率低、验证机制薄弱以...
Read More