结合无监督训练和监督微调的效果存在挑战

talkingdev • 2024-02-23

964470 views

近日，一项新的研究挑战了结合监督微调和强化学习的训练方法的有效性。研究表明，在初始训练中使用更先进的模型（如GPT-4）可以优于更复杂的两步方法。这一研究的开源代码已经发布到GitHub上，供科研人员使用和参考。