强化学习的相关内容 - 漫话开发者

2025-04-01 talkingdev

[开源]Video-R1：基于规则的强化学习方法实现高效视频推理

Video-R1项目提出了一种创新的基于规则的强化学习（RL）方法，专门用于视频推理任务。该方法采用了GRPO（Generalized Reinforcement Learning with Policy Optimization）的时间变体，并引入了新的数据集来支持训练...

2025-03-26 talkingdev

FastCuRL-1.5B-Preview 是一种基于课程强化学习（Curriculum Reinforcement Learning）的慢思维推理模型，该模型在较少的训练步骤中实现了最先进的性能，展示了其在复杂推理任务中的潜力。相比传统方法，FastCuRL 通...

2025-03-19 talkingdev

近期，一项名为reWordBench的研究揭示了当前流行的奖励模型在面对提示词（prompt）的简单重述时表现出的脆弱性。该研究不仅提出了一个基准测试，还探讨了一种潜在的策略，以增强这些模型的鲁棒性。奖励模型在人工智...

2025-03-11 talkingdev

这项研究探索了如何通过强化学习来教授AI语言模型解决数独谜题，特别采用了Group Relative Policy Optimization (GRPO)技术，应用于Qwen 2.5等模型，无需依赖外部数据或更大模型的蒸馏。研究设计了一个多方面的奖励...

2025-03-11 talkingdev

最新研究展示了如何通过强化学习技术，使AI语言模型具备解决数独谜题的能力。该研究采用了Group Relative Policy Optimization (GRPO)方法，并在Qwen 2.5等模型上进行了实验，无需依赖外部数据或更大模型的蒸馏。研...

2025-03-11 talkingdev

近日，一个基于深度强化学习的轻量级避障系统在GitHub上发布，专为固定翼无人机（UAVs）设计。该系统结合了AirSim和JSBSim两大仿真平台，旨在提升无人机在高速飞行中的避障能力。通过深度强化学习算法，无人机能够在...

2025-03-11 talkingdev

近期，一项关于视觉语言模型（Vision Language Models）的研究引起了广泛关注。该研究通过结合简单可验证奖励机制与规模化强化学习（Scaled Reinforcement Learning），显著提升了模型的性能。研究团队在论文中详细...

2025-03-05 talkingdev

近日，L-MAP技术在离线强化学习（Offline RL）领域取得了显著进展，特别是在处理随机、高维连续动作空间中的序列决策问题。L-MAP通过结合VQ-VAE模型，成功学习并优化了宏动作（macro-actions），从而显著提升了决策...