强化学习训练的相关内容 - 漫话开发者

2026-07-12 talkingdev

论文推荐| Z.ai提出SAO：单次展开异步优化，稳定训练千步，超越GRPO并已部署于GLM-5.2

在大语言模型后训练中，强化学习正变得愈发关键，但面向长周期智能体任务时，传统同步、批次交替的RL流程效率低下。异步强化学习通过随到随更新的方式提升了效率，然而现有系统多偏重吞吐量，训练稳定性和任务有效性...

2026-06-26 talkingdev

DeepReinforce近日开源了其新一代编程模型家族Ornith-1.0，这一系列模型的最大亮点在于具备自我编写强化学习（RL）训练框架的能力，标志着AI模型在自我优化和自动化研究方向上迈出重要一步。Ornith-1.0家族基于预训...

2026-03-23 talkingdev

近日，科技界发生了一起备受关注的模型溯源事件。AI编程助手Cursor发布的新一代代码生成模型Composer 2，被用户发现其底层架构疑似基于中国人工智能公司月之暗面（Moonshot AI）的开源大模型Kimi 2.5。面对社区质疑...

2026-02-03 talkingdev

近日，NVIDIA研究团队提出了一种名为“金鹅”（Golden Goose）的创新方法，旨在解决大语言模型（LLM）强化学习领域的一个关键瓶颈。当前，基于可验证奖励的强化学习（RLVR）是解锁LLM复杂推理能力的重要基石，但其发展...

2026-01-08 talkingdev

近日，研究人员推出了迄今为止最大规模的开源环境WebGym，专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性：人工合成或小规模任务集无法应对真实网站的多样性和非...

2025-11-29 talkingdev

人工智能公司Prime Intellect正式推出INTELLECT-3模型，这是一个基于强化学习训练、具备1060亿参数的混合专家开源模型。该模型采用创新的MoE架构，通过动态激活专家网络显著提升计算效率，在数学推理、代码生成、科...

2025-10-30 talkingdev

Cursor公司最新推出的Composer模型标志着AI辅助软件开发领域的重大突破。这款基于混合专家架构的智能体模型，通过强化学习训练实现了前沿代码生成能力，其执行速度达到同类模型的四倍。Composer的核心创新在于其多工...

2025-09-17 talkingdev

月之暗面(Moonshot AI)团队在其技术博客中详细披露了Kimi K2模型在强化学习训练领域的重大突破。该团队成功实现了对1万亿参数模型的RL参数更新仅需约20秒，这一突破性进展解决了强化学习端到端训练过程中的关键效率...