漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-08 talkingdev

论文推荐|WebGym:为视觉网页智能体构建近30万真实任务的大规模训练场,性能超越GPT-4o

近日,研究人员推出了迄今为止最大规模的开源环境WebGym,专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性:人工合成或小规模任务集无法应对真实网站的多样性和非...

Read More
2025-11-29 talkingdev

Prime Intellect发布INTELLECT-3:1060亿参数开源MOE模型在数学代码科学领域超越更大模型

人工智能公司Prime Intellect正式推出INTELLECT-3模型,这是一个基于强化学习训练、具备1060亿参数的混合专家开源模型。该模型采用创新的MoE架构,通过动态激活专家网络显著提升计算效率,在数学推理、代码生成、科...

Read More
2025-10-30 talkingdev

Cursor发布Composer:基于强化学习的快速前沿代码生成模型

Cursor公司最新推出的Composer模型标志着AI辅助软件开发领域的重大突破。这款基于混合专家架构的智能体模型,通过强化学习训练实现了前沿代码生成能力,其执行速度达到同类模型的四倍。Composer的核心创新在于其多工...

Read More
2025-09-17 talkingdev

开源|揭秘月之暗面Kimi K2如何实现万亿参数模型20秒高效RL更新

月之暗面(Moonshot AI)团队在其技术博客中详细披露了Kimi K2模型在强化学习训练领域的重大突破。该团队成功实现了对1万亿参数模型的RL参数更新仅需约20秒,这一突破性进展解决了强化学习端到端训练过程中的关键效率...

Read More
2025-05-01 talkingdev

[开源]DeepSeek-Prover-V2:AI自动定理证明框架升级版发布

DeepSeek团队近日在GitHub开源了其第二代自动定理证明框架DeepSeek-Prover-V2,该项目迅速获得326个Hacker News点赞和63条技术讨论,显示出学术界和工业界对AI形式化验证工具的高度关注。作为当前最前沿的AI推理系统...

Read More
2025-04-18 talkingdev

[论文推荐]JudgeLRM:基于强化学习训练的推理大模型在评判任务中超越GPT-4

斯坦福大学研究团队最新推出的JudgeLRM模型家族,通过强化学习训练机制在复杂推理评判任务中展现出突破性性能。该技术采用与标准监督微调(SFT)截然不同的训练范式,在需要深度逻辑分析的评估场景下,其综合表现显...

Read More
2024-09-21 talkingdev

论文:通过强化学习训练语言模型实现自我纠错

近期研究表明,通过强化学习可以有效地训练语言模型,使其具备自我纠错的能力。这一方法不仅提升了模型的准确性,还增强了其处理复杂任务的灵活性。强化学习的应用使得语言模型在面对错误时能够自我识别并进行调整,...

Read More
2024-06-25 talkingdev

在TRL中训练视觉模型

TRL是一个Hugging Face库,专为使用强化学习训练变形金刚设计。这个示例允许您对基于视觉的语言模型如LLaVA进行相同的处理。Hugging Face是一个开源NLP(自然语言处理)社区和公司,致力于使用人工智能推动自然语言...

Read More
  1. Next Page