Anthropic公司的下一步：朝向可解释性的发展

talkingdev • 2023-10-06

1367306 views

机械可解释性是通过将神经网络分解为更可解释的子部分来理解神经网络的过程。不幸的是，神经元本身往往不可解释。有一些深层次的原因，如叠加，导致了这个挑战。Anthropic公司的这项工作使用稀疏自编码器从一层Transformer中生成可解释的表示。这是对这些模型理解的一大步向前。