Distilabel是为AI工程师设计的框架,使用人类反馈的强化学习方法(例如奖励模型和DPO)对大型语言模型进行对齐。 它主要专注于LLM微调和适应性。 Distilabel可协助数据收集,清洗和训练。
Read More来自加州大学圣地亚哥分校(UCSD)的研究人员训练了人形机器人的动作,使其更具表现力、社交倾向和鲁棒性。他们在草地上的非编排舞蹈视频非常令人印象深刻。该研究团队使用了深度强化学习,让机器人能够快速学习和适应...
Read MoreMeta最近发布了一款名为Pearls的强化学习库,该库已经在拍卖竞标系统、推荐引擎等应用中进行了部署,可以用于研究和部署。Pearls提供了一些在强化学习领域中非常实用的工具,例如,一些用于环境模拟和数据前处理的工...
Read MoreREINFORCE是一种简单、标准且易于理解的强化学习方法。然而,在模拟器中使用它很难稳定地进行训练。PPO在一般情况下更为高效和稳定。Gemini使用REINFORCE算法,而据信GPT-4使用PPO算法。
Read More近日,一项新的研究挑战了结合监督微调和强化学习的训练方法的有效性。研究表明,在初始训练中使用更先进的模型(如GPT-4)可以优于更复杂的两步方法。这一研究的开源代码已经发布到GitHub上,供科研人员使用和参考...
Read More最近,一家科技公司发布了一个训练端到端控制策略的代码库,用于使用深度强化学习训练无人机控制策略。该训练在模拟环境中进行,可以在消费级笔记本电脑上在几秒钟内完成。训练出的策略具有通用性,可以部署在真实的...
Read More《流体盒子》介绍了一种新颖的实验系统,用于在动态的现实世界环境中测试强化学习算法,解决了模拟强化学习应用中复杂流体动力学的挑战。它展示了无模型强化学习算法从简单奖励中生成复杂行为的能力,并通过离线强化...
Read MoreRLX是一个基于MLX的强化学习框架,旨在为研究人员和工程师提供一个易于使用的平台,以便开发和实现强化学习算法。 RLX提供了一组易于使用的API和工具,可以帮助用户轻松地构建和训练强化学习模型。此外,RLX还提供了...
Read More近期,将一种强化学习代理的技能转移到另一个代理上一直是一个挑战。但是,一项新的技术优化了一套可以在不同环境中使用的技能集,表现出很好的泛化性能。研究人员通过对一种基于技能的代理架构进行修改,将技能集的...
Read More最近,由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成,将复杂的图像创建任务分解为更简单的任务,从而在处理多个...
Read More