人类反馈的相关内容 - 漫话开发者

2025-04-02 talkingdev

Open Hands推出32B代码模型，在代理编码任务中超越更大规模模型

Open Hands团队最新发布的32B参数代码模型（Open Hands LM-32B）在强化学习（RL）训练框架下，基于Qwen架构实现了突破性进展。该模型在代理编码任务（agentic coding tasks）中的表现已超越许多参数规模更大的竞品，...

2024-07-02 talkingdev

ReaLHF是一个创新的系统，通过在训练过程中动态重新分配参数并优化并行化，提升了人类反馈的强化学习（RLHF）的效率。这一技术的主要特点在于，它可以根据训练的实际需求，灵活调整系统参数和并行化优化策略，从而实...

2024-06-24 talkingdev

ReaLHF是一种全新的系统，它通过在训练过程中动态地重新分配参数和优化并行化，以提高来自人类反馈的强化学习（RLHF）的效率。ReaLHF通过创新的技术手段，实现了动态参数分配和并行化优化，从而达到了提高训练效率的...

2024-03-01 talkingdev

Distilabel是为AI工程师设计的框架，使用人类反馈的强化学习方法（例如奖励模型和DPO）对大型语言模型进行对齐。它主要专注于LLM微调和适应性。 Distilabel可协助数据收集，清洗和训练。

2024-03-01 talkingdev

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈，并创建了Q-Pathway数据集，以分析其清晰度、色彩和亮度。

2024-02-27 talkingdev

OpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder，通过训练合成多轮数据集和使用人类反馈，能够在编程HumanEval基准测试中获得85%以上的准确率。

2023-08-25 talkingdev

人类反馈在改善语言模型对齐和整体性能方面扮演着关键角色。然而，使用近端策略优化进行训练的过程中存在一些挑战。最近的研究表明，可以直接针对人类偏好进行优化，从而绕过奖励模型。借助基于文本的强化学习，你可...

2023-05-23 talkingdev

在最近的工作中，强化学习一直备受关注，主要集中在人类反馈方面。但事实证明，您也可以使用计算反馈作为奖励模型。在这项工作中，他们使用LLaVA视觉问答系统为多个不同任务给出bert分数。有趣的是，他们能够显着提...