漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-19 talkingdev

超越人类水平:通过扩展强化学习系统实现超人级性能

强化学习在扩展方面一直很棘手。也就是说,当你增加模型大小或增加剧集数量时,事情开始变得复杂。然而,在其他AI学科中,扩展带来的性能足够好,值得克服这个挑战。在这项研究中,作者通过使用一些巧妙的设计技巧,...

Read More
2023-06-16 talkingdev

GitHub开源项目:Hindsight Experience Replay

近日,OpenAI开源了一份老但经典的论文——Hindsight Experience Replay,该论文是OpenAI成立初期所撰写的。Hindsight Experience Replay是一种处理强化学习中非每个时间步都有奖励的方法,它将代理的经验保存在重放缓...

Read More
2023-05-23 talkingdev

通过强化学习训练扩散模型

在最近的工作中,强化学习一直备受关注,主要集中在人类反馈方面。但事实证明,您也可以使用计算反馈作为奖励模型。在这项工作中,他们使用LLaVA视觉问答系统为多个不同任务给出bert分数。有趣的是,他们能够显着提...

Read More
2023-05-04 talkingdev

小模型备受欢迎,但能追赶上大模型吗?

在自然语言处理中,大型语言模型的推理能力往往比小型模型更强。这种推理能力有助于解决困难的任务,并可能使语言模型成为下一代计算平台/操作系统的基础。通过代码训练、思维链提示和强化学习等技术,可以提高模型...

Read More
2023-04-28 talkingdev

学习敏捷的足球技能:强化学习

这项研究利用深度强化学习(Deep RL)来训练一个低成本、小型的人形机器人,通过20个关节来玩一个简化的1v1足球比赛,从而开发出了稳健和动态的运动技能和基本战略理解。高频控制、有针对性的动力学随机化以及模拟训...

Read More
2023-04-20 talkingdev

著名科技人士John Schulman发表演讲:强化学习从人类反馈中获得突破

- John Schulman是伯克利校友、OpenAI联合创始人和ChatGPT首席架构师 - Schulman发表演讲,介绍了ChatGPT背后的强化学习从人类反馈中获得的突破 - 强化学习是解决人工智能中真实性问题的最大方式之一

Read More
2023-04-19 talkingdev

街头霸王AI (GitHub代码库)

新闻内容: 最近,人们开始致力于让强化学习智能体变得更加勇敢。其中一篇论文特别讨论了在强化学习模型中减轻懦弱的问题。这对于自动驾驶汽车领域具有重要意义,但在其他潜在应用中却令人恐惧。现在,这个代码库展...

Read More
2023-04-13 talkingdev

Wombat:从RLHF到RRHF,以“正确”的方式对齐人类喜好(GitHub代码库)

## 新闻内容: Wombat是一种新的RLHF(Reinforcement Learning with Human Feedback,即通过人类反馈进行强化学习)学习范式,它通过更高效地将语言模型输出与人类喜好对齐,在需要更少的模型的情况下提供了简单的P...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page