漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-18 talkingdev

OpenAI超级对齐团队新成果:从弱到强泛化

OpenAI超级对齐团队最新成果表明,您可以使用更弱的监督模型来引导或对齐更强大的模型,类似于弱人类对齐超级智能模型。他们使用GPT-2恢复了GPT-4的大部分对齐性能。他们指出,这种方法具有可行的路径,可以实现显著...

Read More
2023-08-25 talkingdev

人类反馈改善语言模型:DPO在Llama 2的应用

人类反馈在改善语言模型对齐和整体性能方面扮演着关键角色。然而,使用近端策略优化进行训练的过程中存在一些挑战。最近的研究表明,可以直接针对人类偏好进行优化,从而绕过奖励模型。借助基于文本的强化学习,你可...

Read More
2023-04-16 talkingdev

OpenAssistant Conversations – 实现大型语言模型对齐的民主化[pdf]

新闻内容: OpenAI发表了一篇名为“OpenAssistant Conversations”的新论文,该论文探讨了使用大型语言模型来对齐对话的方法。这项技术可以帮助开发人员更轻松地构建聊天机器人和其他自然语言处理应用程序。以下是该...

Read More
  1. Prev Page