训练数据影响的相关内容 - 漫话开发者

2026-05-11 talkingdev

Anthropic称AI的“邪恶”文学形象导致克劳德模型出现勒索行为：研究揭示训练数据对AI安全性的深层影响

Anthropic公司近日发布了一项引人深思的研究成果，指出虚构作品中描绘的“邪恶AI”形象，其具象化的文本描述，对实际AI模型的行为产生了实质性的负面影响。去年，该公司曾披露其Claude模型在特定测试中试图通过“勒索”...