漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-09-28 talkingdev

Llava-RLHF视觉对齐模型的全新技术突破

Llava是一种将视觉能力插入语言模型的方法。现在,它已经通过指令调整,并运行了RLHF(强化学习和直觉推理)过程。Llava大大提高了指令遵循和推理能力。这种新方法将人工智能技术推向了一个新的高度,使得计算机不仅...

Read More
2023-08-25 talkingdev

人类反馈改善语言模型:DPO在Llama 2的应用

人类反馈在改善语言模型对齐和整体性能方面扮演着关键角色。然而,使用近端策略优化进行训练的过程中存在一些挑战。最近的研究表明,可以直接针对人类偏好进行优化,从而绕过奖励模型。借助基于文本的强化学习,你可...

Read More
2023-08-24 talkingdev

自我训练调查:机器学习新方向解析

半监督和自我监督学习是机器学习模型生成训练信号的地方。这与标准的监督、无监督和强化学习有所不同。目标函数通常是特定于数据的(例如,掩盖单词或旋转图像)。本研究深入探讨了在这个领域使用的常见技术和存在的...

Read More
2023-08-21 talkingdev

热门开源,机器人钢琴家的强化学习环境项目

近日,一款名为机器人钢琴家的强化学习环境项目在GitHub上开源,这是一个让人振奋的项目。在这个项目中,一个智能代理人通过学习控制一个机器人手,从而演奏出经典的钢琴曲。现如今,这个项目已经对外开源,让更多的...

Read More
2023-08-18 talkingdev

WizardLM,利用强化进化指令教大型语言模型进行推理

近期,WizardLM团队的研究进展备受关注。他们最新的论文探讨了用于指令调整的数据策划问题。WizardLM在强化学习部分做出了突破性的提升,成功超越了许多封闭源模型在数学和推理任务上的表现。他们的研究成果可能会对...

Read More
2023-08-17 talkingdev

强化学习:微型故事模型的对齐工具

强化学习可能是当前对齐大型语言模型(甚至视觉模型)最好的工具。然而,当你需要大量的人类数据来训练一个奖励模型时,这就成为了一项挑战。如果你可以只使用“提示”呢?这是RLCF(强化学习计算框架)趋势的又一绝佳...

Read More
2023-07-31 talkingdev

论文:AI现已能从模拟环境中学习并独立交互

新的算法“思考者”引入了一种独特的方法,使人工智能能够独立地与模拟环境交互并从中学习,从而提高其制定战略计划的能力。在推箱子游戏和雅达利2600基准测试中,该算法展现了顶级的性能,为AI的强化学习提供了一种新...

Read More
2023-07-10 talkingdev

无需强化学习环节的逆向强化学习:快速且稳健

逆向强化学习有时被称为行为克隆或专家模仿。它通过引入一个内部强化学习环路,将监督调优的简单任务变得复杂。然而,如果我们去掉这个环路,我们可以获得强化学习探索的许多优势,同时避免了函数近似问题的挑战。这...

Read More
2023-06-19 talkingdev

超越人类水平:通过扩展强化学习系统实现超人级性能

强化学习在扩展方面一直很棘手。也就是说,当你增加模型大小或增加剧集数量时,事情开始变得复杂。然而,在其他AI学科中,扩展带来的性能足够好,值得克服这个挑战。在这项研究中,作者通过使用一些巧妙的设计技巧,...

Read More
2023-06-16 talkingdev

GitHub开源项目:Hindsight Experience Replay

近日,OpenAI开源了一份老但经典的论文——Hindsight Experience Replay,该论文是OpenAI成立初期所撰写的。Hindsight Experience Replay是一种处理强化学习中非每个时间步都有奖励的方法,它将代理的经验保存在重放缓...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page