RLHF的相关内容 - 漫话开发者

2024-01-25 talkingdev

论文：权重平均奖励模型的应用

奖励模型在RLHF中用于表示人类偏好，尽管被对齐的模型通常“破解奖励”并实现不利的性能。通过合并多个奖励模型，这些模型保持线性模式连接，得到的对齐模型被79％的人更喜欢，而不是一个对齐单一奖励模型的模型。模型...

2024-01-09 talkingdev

对比激活下的Steering Llama 2技术

有很多方式可以对齐语言模型，例如SFT、LoRa、RLHF、DPO、Prompting和Threatening。本研究提出使用负嵌入加到偏置项中，以将模型生成推向期望的结果。

2024-01-04 talkingdev

Pykoi开源：采用RLHF提高LLMs性能

Pykoi是一个开源的Python库，旨在通过RLHF（Reinforcement Learning with Hamiltonian Flows）提高LLMs（Latent Linear Models）的性能。Pykoi是一个基于TensorFlow 2的库，提供了一系列的LLMs和RLHF的实现，可以直...

2023-12-18 talkingdev

OpenAI超级对齐团队新成果：从弱到强泛化

OpenAI超级对齐团队最新成果表明，您可以使用更弱的监督模型来引导或对齐更强大的模型，类似于弱人类对齐超级智能模型。他们使用GPT-2恢复了GPT-4的大部分对齐性能。他们指出，这种方法具有可行的路径，可以实现显著...

2023-11-28 talkingdev

RLHF的替代方案，DPO实现方案开源

直接偏好优化是使用非常相似的数据的RLHF的稳定替代方法。该存储库包含一个实现，用于学习该技术。虽然DPO是一种新兴的技术，但它在许多情况下都能够提供比强化学习更好的结果。它非常适合解决一些现实世界中的问题...

2023-10-31 talkingdev

HF团队成功复现OpenAI的第一个RLHF代码库

HuggingFace团队成功复现了OpenAI的第一个RLHF代码库，该代码库于2019年发布，是引入了一些最初的RLHF（强化学习与人类因素）想法。这个代码库被称为“Generative Pretraining Transformer（GPT）”。通过在计算机上训...

2023-09-28 talkingdev

Llava-RLHF视觉对齐模型的全新技术突破

Llava是一种将视觉能力插入语言模型的方法。现在，它已经通过指令调整，并运行了RLHF（强化学习和直觉推理）过程。Llava大大提高了指令遵循和推理能力。这种新方法将人工智能技术推向了一个新的高度，使得计算机不仅...

2023-09-04 talkingdev

RLHF与RLAIF的首次公开比较：性能相当，受人类青睐

近日，研究人员第一次公开比较了RLHF和RLAIF两种技术的性能。结果发现，这两种技术在最终模型性能方面基本相同，相比于基线模型，有大约70%的人类用户更青睐使用这两种技术。RLHF和RLAIF的研究和开发，推动了人工智...