漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-18 talkingdev

[论文推荐]JudgeLRM:基于强化学习训练的推理大模型在评判任务中超越GPT-4

斯坦福大学研究团队最新推出的JudgeLRM模型家族,通过强化学习训练机制在复杂推理评判任务中展现出突破性性能。该技术采用与标准监督微调(SFT)截然不同的训练范式,在需要深度逻辑分析的评估场景下,其综合表现显...

Read More
2025-04-17 talkingdev

Prime Intellect开源Intellect 2分布式训练框架,32B网络实现强化学习推理

人工智能研究机构Prime Intellect近日取得重大突破,成功通过完全分布式的方式训练了一个参数量高达320亿(32B)的神经网络模型,并创新性地结合强化学习技术提升模型的推理能力。值得关注的是,该团队已将其核心训...

Read More
2025-04-04 talkingdev

深入解析机器学习:从理论到算法的全面指南

机器学习作为人工智能的核心技术之一,近年来在学术界和工业界均取得了显著进展。本文从理论基础出发,系统性地介绍了机器学习的核心概念、算法分类及实际应用场景。监督学习、无监督学习和强化学习三大范式构成了机...

Read More
2025-04-02 talkingdev

[开源]SEED-Bench-R1:基于强化学习的视频理解新基准

腾讯ARC实验室最新发布的SEED-Bench-R1基准测试,为多模态大语言模型(MLLM)在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习(RL)和监督微调(SFT)等后训练方法,揭示了RL在视觉感知任务和数...

Read More
2025-04-02 talkingdev

[论文推荐]Open-Reasoner-Zero:探索基础模型在强化学习推理中的规模化应用

强化学习(RL)领域长期存在一个关键问题:是否需要一个足够强大的基础模型来支持涌现式推理能力的形成?最新研究Open-Reasoner-Zero通过系统性实验验证了基础模型对RL推理的重要作用。该研究在多种规模化的RL训练场...

Read More
2025-04-02 talkingdev

Open Hands推出32B代码模型,在代理编码任务中超越更大规模模型

Open Hands团队最新发布的32B参数代码模型(Open Hands LM-32B)在强化学习(RL)训练框架下,基于Qwen架构实现了突破性进展。该模型在代理编码任务(agentic coding tasks)中的表现已超越许多参数规模更大的竞品,...

Read More
2025-04-01 talkingdev

[开源]Video-R1:基于规则的强化学习方法实现高效视频推理

Video-R1项目提出了一种创新的基于规则的强化学习(RL)方法,专门用于视频推理任务。该方法采用了GRPO(Generalized Reinforcement Learning with Policy Optimization)的时间变体,并引入了新的数据集来支持训练...

Read More
2025-03-26 talkingdev

[开源]FastCuRL-1.5B-Preview:通过课程强化学习推动慢思维推理模型的进步

FastCuRL-1.5B-Preview 是一种基于课程强化学习(Curriculum Reinforcement Learning)的慢思维推理模型,该模型在较少的训练步骤中实现了最先进的性能,展示了其在复杂推理任务中的潜力。相比传统方法,FastCuRL 通...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page