漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

来自大规模实验的研究团队发布了名为ScaleRL的创新框架,这是首个针对大型语言模型强化学习计算扩展的系统性研究方法。该研究通过超过40万GPU小时的实验数据,构建了可预测的S型计算-性能曲线,揭示了RL训练中算法改进对计算效率的影响规律。研究发现:不同训练方案虽能达到相近的渐近性能,但在计算效率上存在显著差异;损失聚合、归一化、课程学习等技术细节主要影响计算效率而非最终性能上限;稳定的训练方案呈现出可预测的扩展轨迹,使得从小规模实验推断大规模表现成为可能。基于这些发现,团队提出的ScaleRL最佳实践方案在单次10万GPU小时的扩展实验中成功验证了其预测能力。这项突破性工作不仅为RL扩展提供了科学分析框架,更将RL训练推向接近预训练长期具备的可预测性水平,对降低AI研发成本和加速技术迭代具有重要实践意义。

核心要点

  • 首次建立强化学习计算扩展的预测框架,通过40万GPU小时实验验证
  • 发现训练方案细节主要影响计算效率而非性能上限,实现从小规模到大规模的性能预测
  • 提出的ScaleRL方案在10万GPU小时实验中成功验证扩展预测能力

Read more >