近日,研究人员推出了迄今为止最大规模的开源环境WebGym,专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性:人工合成或小规模任务集无法应对真实网站的多样性和非...
Read More近日,一个名为ExoPriors的专业搜索引擎引起了人工智能与前沿科技研究社区的关注。该平台专注于索引和检索与“智能爆炸”相关的研究文献,其数据源覆盖了arXiv预印本库、LessWrong理性社区论坛等学术与思想平台。ExoPr...
Read More一项发表于arXiv预印本平台的最新研究《Professional Software Developers Don't Vibe, They Control: AI Agent Use for Coding in 2025》深入探讨了AI智能体(AI Agents)在专业软件开发中的实际应用与影响。该研究...
Read More一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:...
Read More人工智能学术研究平台alphaXiv于近日宣布获得700万美元种子轮融资,本轮融资由Menlo Ventures和Haystack共同领投。该平台致力于构建围绕arXiv预印本论文的开放学术社区,允许研究人员对论文进行实时批注、评论和深度...
Read More来自大规模实验的研究团队发布了名为ScaleRL的创新框架,这是首个针对大型语言模型强化学习计算扩展的系统性研究方法。该研究通过超过40万GPU小时的实验数据,构建了可预测的S型计算-性能曲线,揭示了RL训练中算法改...
Read More一项发表于arXiv的前沿研究显示,大型语言模型(LLM)通过创新的语义相似性评分方法,在57种个人护理产品的消费选择预测中成功复现了人类决策模式,达到人类测试重测可靠性的90%。传统调研方法依赖数值评分易导致数...
Read More清华大学与斯坦福大学联合研究团队近日发布突破性研究成果ReasoningBank,该框架通过构建推理记忆系统解决长期困扰大语言模型智能体的历史经验复用难题。传统智能体在持续执行现实任务时,往往将每次交互视为独立事...
Read More