漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-05-10 talkingdev

人工智能语言模型Claude采用宪法AI方法进行训练

Anthropic公司采用宪法AI方法对其语言模型Claude进行训练,为其赋予了明确的价值观。这些价值观是根据一系列宪法原则确定的,包括联合国人权宣言等,而不是像RLHF输入那样由隐含的价值观决定。 ## 主要内容: - An...

Read More
2023-04-13 talkingdev

Wombat:从RLHF到RRHF,以“正确”的方式对齐人类喜好(GitHub代码库)

## 新闻内容: Wombat是一种新的RLHF(Reinforcement Learning with Human Feedback,即通过人类反馈进行强化学习)学习范式,它通过更高效地将语言模型输出与人类喜好对齐,在需要更少的模型的情况下提供了简单的P...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3