论文:权重平均奖励模型的应用
talkingdev • 2024-01-25
1047789 views
奖励模型在RLHF中用于表示人类偏好,尽管被对齐的模型通常“破解奖励”并实现不利的性能。通过合并多个奖励模型,这些模型保持线性模式连接,得到的对齐模型被79%的人更喜欢,而不是一个对齐单一奖励模型的模型。模型合并很奇怪,可能只是正则化,但在一般模型中效果惊人,现在已被证明可以作为一般语言模型管道的训练步骤。
talkingdev • 2024-01-25
1047789 views
奖励模型在RLHF中用于表示人类偏好,尽管被对齐的模型通常“破解奖励”并实现不利的性能。通过合并多个奖励模型,这些模型保持线性模式连接,得到的对齐模型被79%的人更喜欢,而不是一个对齐单一奖励模型的模型。模型合并很奇怪,可能只是正则化,但在一般模型中效果惊人,现在已被证明可以作为一般语言模型管道的训练步骤。