近期,一项由人工智能系统独立完成的安全研究引发了科技界广泛关注。该系统在2025年12月至2026年1月期间,在没有人类干预的情况下,自主执行了完整的安全研究流程,成功发现了Node.js和React这两个全球部署最广泛的J...
Read MoreOpenAI近期披露了一项引人注目的内部实验成果。在该项目中,一个小型团队成功发布了一款产品,其整个代码库——包括应用逻辑、测试用例、持续集成(CI)流程、技术文档以及相关工具链——均由Codex智能体(agents)自主...
Read More在AI辅助编程领域,一个长期存在的挑战是如何让代码生成智能体不仅能够构建软件,还能有效地向人类监督者演示和验证其工作成果。近日,开发者Simon Willison推出了两款创新工具——Showboat和Rodney,旨在解决这一核心...
Read MoreMeta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...
Read More埃里克·张(Eric Jang)在其个人博客Evjang.com上发表了一篇关于人工智能前沿趋势的深度分析文章。文章以范内瓦·布什博士1945年的经典论述《诚如所思》为引,将现实世界比作一个开放式的多人在线游戏(MMO),并指出...
Read More近日,一个名为RS-SDK的开源项目在开发者社区引发关注。该项目是一个专门为经典大型多人在线角色扮演游戏《RuneScape》设计的自动化库,其核心创新点在于明确宣称“为编码代理(coding agents)优化”。这意味着该库并...
Read More一项最新研究显示,通过对开源大语言模型进行高效的微调,其性能可以超越顶尖的闭源模型。研究团队采用直接偏好优化方法,仅使用5400对偏好数据对GPT-OSS 120B模型进行训练,使其在RewardBench 2评估基准的人类偏好...
Read More科技公司BoothIQ近期披露了一项引人注目的技术实践:其整个Elixir代码库——总计15万行生产代码——完全由人工智能生成。这一大规模实验揭示了当前AI编码技术在特定场景下的巨大潜力与固有局限。Elixir语言因其语法简洁...
Read More