知名研究员Nicholas Carlini发布了他用于评估大型语言模型性能的基准。有趣的是,它让GPT-4的表现在大多数其他基准之上。据了解,这个基准是基于多个指标和任务,包括自然语言推理和问答等。
Read More人类反馈在改善语言模型对齐和整体性能方面扮演着关键角色。然而,使用近端策略优化进行训练的过程中存在一些挑战。最近的研究表明,可以直接针对人类偏好进行优化,从而绕过奖励模型。借助基于文本的强化学习,你可...
Read MoreTWIST是一种新的训练语音语言模型(SpeechLMs)的方法,它使用预先训练的文本模型来进行热启动。该方法优于从头开始训练,经验分析强调了模型和数据集规模的重要性。这项研究介绍了迄今为止最大的SpeechLM,并引入了...
Read More