在人工智能领域,众多团队宣称其研发的智能体具备卓越的科学发现能力,但支撑这些声明的证据往往难以令人信服。为客观评估AI在科学探索中的真实水平,艾伦人工智能研究所(AI2)开发并开源了两项关键基准测试:Scien...
Read More谷歌DeepMind近日正式发布了Gemma 4系列开源模型,标志着其在开放人工智能模型领域迈出了重要一步。该系列模型基于其旗舰Gemma 3技术构建,核心优化方向是“单位参数智能效率”,即在保持模型参数规模相对可控的同时,...
Read More人工智能研究机构Epoch近日发布报告,确认其最新模型GPT-5.4 Pro成功解决了一个长期悬而未决的前沿数学开放问题——超图上的拉姆齐风格问题。该问题属于组合数学的核心领域,要求构造尽可能大的超图,使其不具备某个易...
Read More人工智能研究机构Percepta近期发布了一项前沿研究成果,探讨了大型语言模型(LLMs)作为通用计算设备的可能性。该研究成功在Transformer架构内部构建了一个“计算机”,能够高效执行任意的C语言程序,并运行数百万个计...
Read More随着AI生成代码的广泛应用,新的逻辑缺陷和安全漏洞也随之涌现,给软件开发质量带来了前所未有的挑战。为应对这一行业痛点,人工智能研究公司Anthropic正式推出了Claude Code Review工具。该工具深度集成于其Claude...
Read More人工智能研究机构OpenAI正式发布了其最新的前沿模型GPT-5.4,该模型被定位为专为专业工作场景设计的、目前能力最强且最高效的版本。GPT-5.4现已通过ChatGPT、API以及Codex平台向用户开放。此次更新的核心在于显著提...
Read MoreMeta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...
Read More人工智能研究公司Anthropic正式发布了其旗舰模型Claude Opus的最新版本——Claude Opus 4.6。此次升级标志着大语言模型在专业应用领域的能力边界再次被拓展。该模型在智能体编码、计算机使用、工具调用、信息检索及金...
Read More