漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-04-13 talkingdev

Wombat:从RLHF到RRHF,以“正确”的方式对齐人类喜好(GitHub代码库)

## 新闻内容: Wombat是一种新的RLHF(Reinforcement Learning with Human Feedback,即通过人类反馈进行强化学习)学习范式,它通过更高效地将语言模型输出与人类喜好对齐,在需要更少的模型的情况下提供了简单的P...

Read More
2023-04-13 talkingdev

Databricks发布Dolly 2.0:开源指令调整模型

Databricks发布了他们模型Dolly 2.0的新版本,该模型基于EleutherAI Pythia模型,经过指令调整后使用全新的商业可行数据集。虽然不清楚它与基于llama的模型或GPT 3.5 turbo的模型相比如何,但这是一项更加开放的工作...

Read More
  1. Prev Page
  2. 20
  3. 21
  4. 22