RL的相关内容 - 漫话开发者

2024-01-25 talkingdev

论文：权重平均奖励模型的应用

奖励模型在RLHF中用于表示人类偏好，尽管被对齐的模型通常“破解奖励”并实现不利的性能。通过合并多个奖励模型，这些模型保持线性模式连接，得到的对齐模型被79％的人更喜欢，而不是一个对齐单一奖励模型的模型。模型...

2024-01-24 talkingdev

MM-Interleaved模型开源，可实现图文数据生成

近日，GitHub开源了MM-Interleaved模型，该模型在处理和生成交替的图文数据方面表现出色。MM-Interleaved模型能够根据输入的文本描述生成对应的图像，同时也可以从图像中提取文本。该模型使用了条件生成对抗网络（Co...

2024-01-12 talkingdev

Unsloth轻量化库加速TRL上的模型

Unsloth是一个轻量化库，可加速语言模型的微调。它现在可以轻松地与TRL在常见的模型架构上配合使用。Unsloth库通过一个简单的API使得模型训练和微调更快速。它可以帮助从训练数据中自动学习、优化和微调模型，使得模...

2024-01-09 talkingdev

对比激活下的Steering Llama 2技术

有很多方式可以对齐语言模型，例如SFT、LoRa、RLHF、DPO、Prompting和Threatening。本研究提出使用负嵌入加到偏置项中，以将模型生成推向期望的结果。

2024-01-04 talkingdev

Pykoi开源：采用RLHF提高LLMs性能

Pykoi是一个开源的Python库，旨在通过RLHF（Reinforcement Learning with Hamiltonian Flows）提高LLMs（Latent Linear Models）的性能。Pykoi是一个基于TensorFlow 2的库，提供了一系列的LLMs和RLHF的实现，可以直...

2024-01-03 talkingdev

SpaceX Starlink首次发射直接连接手机互联网卫星

SpaceX已经发射了第一批6颗Starlink卫星，旨在实现来自太空的直接连接手机互联网服务。这些卫星将为全球用户提供无需特殊硬件或软件即可随时随地进行短信、通话和浏览的服务。它们拥有一个调制解调器，可以在太空中...

2023-12-18 talkingdev

OpenAI超级对齐团队新成果：从弱到强泛化

OpenAI超级对齐团队最新成果表明，您可以使用更弱的监督模型来引导或对齐更强大的模型，类似于弱人类对齐超级智能模型。他们使用GPT-2恢复了GPT-4的大部分对齐性能。他们指出，这种方法具有可行的路径，可以实现显著...

2023-12-13 talkingdev

FamO2O框架，提高状态自适应平衡的RL算法

研究人员引入了FamO2O框架，旨在通过确定基于状态的最佳平衡来改进和约束当前的离线到在线RL算法的能力。该框架可自适应地根据环境状态调整平衡，以确保算法在不同的环境下都能得到最优的表现。FamO2O框架可以在多种...

2023-12-12 talkingdev

Meta推出Pearl，生产级强化学习Agent库

Meta的应用强化学习团队推出了Pearl (GitHub Repo)，这是一个生产级别的强化学习AI代理库。Pearl是一个Python库，它提供了各种强化学习算法，包括DQN、DDPG、TD3、SAC等等。Pearl还提供了基本的数据结构和一个可扩展...

2023-11-29 talkingdev

Berkeley的研究人员通过RLAIF提高Starling-7B模型的帮助性和无害性

伯克利的一组研究人员使用合成偏好数据训练了一个新的最先进的7B参数模型。本文讨论了训练奖励模型的新挑战（例如，示例在列表中的位置会改变其排名）以及他们如何克服这些挑战。结果模型可与经过训练的奖励模型一起...