漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-18 talkingdev

如何看待OpenAI Q*的超级智能传言

近日,关于OpenAI Q*的传言引发了广泛的讨论。OpenAI Q*被认为是可能会引领人工智能迈向通用推理能力的重要一步。然而,OpenAI Q*并不太可能成为导致人工智能普适智能的关键突破口。OpenAI Q*是一种基于强化学习的模...

Read More
2023-12-13 talkingdev

科学家Randy Cogill教你如何使用强化学习构建Agent

Interview Kickstart将提供这个免费的实践课程!学习强化学习、Q-learning算法和Gymnasium(OpenAI Gym)。现在就保存您的座位吧!

Read More
2023-12-12 talkingdev

Meta推出Pearl,生产级强化学习Agent库

Meta的应用强化学习团队推出了Pearl (GitHub Repo),这是一个生产级别的强化学习AI代理库。Pearl是一个Python库,它提供了各种强化学习算法,包括DQN、DDPG、TD3、SAC等等。Pearl还提供了基本的数据结构和一个可扩展...

Read More
2023-11-30 talkingdev

Meta发布CICERO,首个外交策略游戏中达到人类水平的AI代理

Meta AI最近发布了名为CICERO的AI代理,这是首个在外交策略游戏中达到人类水平的AI代理。CICERO在Diplomacy游戏中表现出了惊人的策略水平,其表现与人类玩家相当,并且超过了其他AI代理。Meta AI表示,CICERO的成功...

Read More
2023-11-28 talkingdev

RLHF的替代方案,DPO实现方案开源

直接偏好优化是使用非常相似的数据的RLHF的稳定替代方法。该存储库包含一个实现,用于学习该技术。虽然DPO是一种新兴的技术,但它在许多情况下都能够提供比强化学习更好的结果。它非常适合解决一些现实世界中的问题...

Read More
2023-11-28 talkingdev

OpenAI内部突破结合搜索和强化学习,Q*是什么

近期泄露的消息称,OpenAI领导层的争端是由内部突破所引起的,该突破将搜索和强化学习结合起来。本文阐述了一种理论,解释了这种新方法的实际运作方式,即Q*算法。强化学习是一种机器学习技术,它通过将智能体放置在...

Read More
2023-10-31 talkingdev

HF团队成功复现OpenAI的第一个RLHF代码库

HuggingFace团队成功复现了OpenAI的第一个RLHF代码库,该代码库于2019年发布,是引入了一些最初的RLHF(强化学习与人类因素)想法。这个代码库被称为“Generative Pretraining Transformer(GPT)”。通过在计算机上训...

Read More
2023-10-13 talkingdev

unisim:可交互的真实世界AI模拟器开源

如果你的模拟器是生成式AI,它可以实现零-shot迁移机器人策略!DeepMind和同事的这项工作解决了强化学习通常无法推广到训练环境之外的挑战。如果我们把所有东西都作为训练环境,那么就没有必要进行推广了。

Read More
2023-09-28 talkingdev

Llava-RLHF视觉对齐模型的全新技术突破

Llava是一种将视觉能力插入语言模型的方法。现在,它已经通过指令调整,并运行了RLHF(强化学习和直觉推理)过程。Llava大大提高了指令遵循和推理能力。这种新方法将人工智能技术推向了一个新的高度,使得计算机不仅...

Read More
2023-08-25 talkingdev

人类反馈改善语言模型:DPO在Llama 2的应用

人类反馈在改善语言模型对齐和整体性能方面扮演着关键角色。然而,使用近端策略优化进行训练的过程中存在一些挑战。最近的研究表明,可以直接针对人类偏好进行优化,从而绕过奖励模型。借助基于文本的强化学习,你可...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page