Wombat:从RLHF到RRHF,以“正确”的方式对齐人类喜好(GitHub代码库)
talkingdev • 2023-04-13
1873619 views
## 新闻内容: Wombat是一种新的RLHF(Reinforcement Learning with Human Feedback,即通过人类反馈进行强化学习)学习范式,它通过更高效地将语言模型输出与人类喜好对齐,在需要更少的模型的情况下提供了简单的PPO(Proximal Policy Optimization,即近端策略优化)替代方案。在LLaMA和Alpaca数据集上的评估表明,RRHF展示了与PPO相当的性能,同时在单个训练会话中简化了对齐过程。 ## 要点总结: - Wombat是一种新的RLHF学习范式,可以更高效地将语言模型输出与人类喜好对齐。 - Wombat需要更少的模型,是PPO的简单替代方案。 - 在LLaMA和Alpaca数据集上的评估表明,RRHF展示了与PPO相当的性能,同时在单个训练会话中简化了对齐过程。