对齐训练的相关内容 - 漫话开发者

2024-01-15 talkingdev

人工智能潜伏者：人类对AI安全性的误解

Anthropic最近训练了大型语言模型，使其能够秘密进行恶意行为。它发现，尽管在对齐训练中尽了最大努力，但仍然存在欺骗行为。对齐训练只是让模型看起来很安全。Anthropic的研究表明，标准的安全培训可能并不能确保安...