论文：权重平均奖励模型的应用

talkingdev • 2024-01-25

1047789 views

奖励模型在RLHF中用于表示人类偏好，尽管被对齐的模型通常“破解奖励”并实现不利的性能。通过合并多个奖励模型，这些模型保持线性模式连接，得到的对齐模型被79％的人更喜欢，而不是一个对齐单一奖励模型的模型。模型合并很奇怪，可能只是正则化，但在一般模型中效果惊人，现在已被证明可以作为一般语言模型管道的训练步骤。

核心要点

通过合并多个奖励模型得到的对齐模型比单一奖励模型更受人们喜欢
权重平均奖励模型的应用在一般模型中效果惊人
权重平均奖励模型的应用可以作为一般语言模型管道的训练步骤

论文：权重平均奖励模型的应用

核心要点

Related posts