漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-08 talkingdev

论文推荐|WebGym:为视觉网页智能体构建近30万真实任务的大规模训练场,性能超越GPT-4o

近日,研究人员推出了迄今为止最大规模的开源环境WebGym,专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性:人工合成或小规模任务集无法应对真实网站的多样性和非...

Read More
2026-01-01 talkingdev

ExoPriors:面向智能爆炸研究的下一代搜索引擎,支持SQL与向量代数混合查询

近日,一个名为ExoPriors的专业搜索引擎引起了人工智能与前沿科技研究社区的关注。该平台专注于索引和检索与“智能爆炸”相关的研究文献,其数据源覆盖了arXiv预印本库、LessWrong理性社区论坛等学术与思想平台。ExoPr...

Read More
2025-12-31 talkingdev

论文推荐|专业开发者不靠“感觉”,而是掌控:2025年AI智能体在编码中的使用研究

一项发表于arXiv预印本平台的最新研究《Professional Software Developers Don't Vibe, They Control: AI Agent Use for Coding in 2025》深入探讨了AI智能体(AI Agents)在专业软件开发中的实际应用与影响。该研究...

Read More
2025-12-09 talkingdev

论文推荐|无需人工标注!新型自训练框架让视觉语言模型学会自我评判

一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:...

Read More
2025-11-20 talkingdev

AI学术平台alphaXiv完成700万美元种子轮融资,打造arXiv论文协作社区

人工智能学术研究平台alphaXiv于近日宣布获得700万美元种子轮融资,本轮融资由Menlo Ventures和Haystack共同领投。该平台致力于构建围绕arXiv预印本论文的开放学术社区,允许研究人员对论文进行实时批注、评论和深度...

Read More
2025-10-17 talkingdev

论文推荐|ScaleRL:大型语言模型强化学习计算扩展的首个系统性研究框架

来自大规模实验的研究团队发布了名为ScaleRL的创新框架,这是首个针对大型语言模型强化学习计算扩展的系统性研究方法。该研究通过超过40万GPU小时的实验数据,构建了可预测的S型计算-性能曲线,揭示了RL训练中算法改...

Read More
2025-10-15 talkingdev

论文推荐|LLM通过语义相似性复现人类消费意图,准确率高达90%

一项发表于arXiv的前沿研究显示,大型语言模型(LLM)通过创新的语义相似性评分方法,在57种个人护理产品的消费选择预测中成功复现了人类决策模式,达到人类测试重测可靠性的90%。传统调研方法依赖数值评分易导致数...

Read More
2025-10-13 talkingdev

论文推荐|ReasoningBank:基于推理记忆实现智能体自我进化的突破性框架

清华大学与斯坦福大学联合研究团队近日发布突破性研究成果ReasoningBank,该框架通过构建推理记忆系统解决长期困扰大语言模型智能体的历史经验复用难题。传统智能体在持续执行现实任务时,往往将每次交互视为独立事...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page