近日,一项名为SWE-Universe的研究提出了一种革命性的可扩展框架,旨在从GitHub的拉取请求中自动构建真实世界的软件工程可验证环境。该研究成功解决了自动化构建中长期存在的三大挑战:构建成功率低、验证机制薄弱以...
Read More近日,NVIDIA研究团队提出了一种名为“金鹅”(Golden Goose)的创新方法,旨在解决大语言模型(LLM)强化学习领域的一个关键瓶颈。当前,基于可验证奖励的强化学习(RLVR)是解锁LLM复杂推理能力的重要基石,但其发展...
Read More近日,研究人员推出了迄今为止最大规模的开源环境WebGym,专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性:人工合成或小规模任务集无法应对真实网站的多样性和非...
Read More近日,一个名为ExoPriors的专业搜索引擎引起了人工智能与前沿科技研究社区的关注。该平台专注于索引和检索与“智能爆炸”相关的研究文献,其数据源覆盖了arXiv预印本库、LessWrong理性社区论坛等学术与思想平台。ExoPr...
Read More一项发表于arXiv预印本平台的最新研究《Professional Software Developers Don't Vibe, They Control: AI Agent Use for Coding in 2025》深入探讨了AI智能体(AI Agents)在专业软件开发中的实际应用与影响。该研究...
Read More一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:...
Read More人工智能学术研究平台alphaXiv于近日宣布获得700万美元种子轮融资,本轮融资由Menlo Ventures和Haystack共同领投。该平台致力于构建围绕arXiv预印本论文的开放学术社区,允许研究人员对论文进行实时批注、评论和深度...
Read More来自大规模实验的研究团队发布了名为ScaleRL的创新框架,这是首个针对大型语言模型强化学习计算扩展的系统性研究方法。该研究通过超过40万GPU小时的实验数据,构建了可预测的S型计算-性能曲线,揭示了RL训练中算法改...
Read More