大语言模型涌现自省能力:Anthropic研究揭示AI内省潜力
talkingdev • 2025-11-03
2681 views
Anthropic最新研究通过‘概念注入’实验,首次系统验证了大语言模型的内省能力。研究显示,特别是Claude Opus 4和4.1版本模型能够检测并识别被注入的概念,并能通过参照自身‘意图’来识别意外输出。实验证明这些模型具备基于指令和激励调整内部表征的能力,表明AI系统正在发展出某种程度的自我监控机制。该突破性发现为构建更透明、可控的AI系统提供了重要技术路径,对人工智能安全性和可解释性研究具有里程碑意义。研究人员采用创新性的概念干预方法,在保持模型性能的同时探索其内部状态的可访问性,这为未来开发具备自我修正能力的AI奠定了基础。