Nemotron 3 Ultra：用于智能体推理的高效开源混合专家Mamba-Transformer模型

Hugging Face Daily Papers 2026/06/12 00:00 论文

摘要

Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型，在20T tokens上预训练，扩展至1M上下文，并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM，其推理吞吐量最高可提升6倍，并已开源。

我们推出 Nemotron 3 Ultra，一个总参数量5500亿、激活参数量550亿的混合专家（MoE）Mamba-Attention语言模型。我们在20万亿文本token上对Nemotron 3 Ultra进行了预训练，随后将上下文长度扩展至100万token，并使用监督微调（SFT）、强化学习（RL）和多教师在线策略蒸馏（MOPD）进行后训练。Nemotron 3 Ultra是我们能力最强的模型，融合了多项关键技术——LatentMoE、多token预测（MTP）、NVFP4预训练、多环境RLVR、MOPD以及推理预算控制。与当前公开的一流LLM相比，Nemotron 3 Ultra在保持同等精度的同时，推理吞吐量最高可提升约6倍。一流的精度、高推理吞吐量以及100万token的上下文长度，使得Nemotron 3 Ultra非常适合长期运行的自主智能体任务。我们已在HuggingFace上开源了基础版、后训练版和量化版检查点，以及训练数据和配方。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:33

论文页面 - Nemotron 3 Ultra：用于智能推理的开放、高效混合专家Mamba-Transformer模型

来源：https://huggingface.co/papers/2606.15007 作者：

摘要

Nemotron 3 Ultra 是一款大规模语言模型，采用混合 Mamba-Attention 架构，拥有 5500 亿参数，通过专门的训练技术实现了高推理吞吐量和扩展的上下文长度。

我们推出 Nemotron 3 Ultra，一个总参数 5500 亿、激活参数 550 亿的混合专家模型（混合专家）与混合 Mamba-Attention 语言模型。我们在 20 万亿文本词元上对 Nemotron 3 Ultra 进行了预训练，随后将上下文长度扩展到 100 万词元，并使用监督微调（SFT）、强化学习（RL）和多教师同策略蒸馏（MOPD）进行后训练。Nemotron 3 Ultra 是我们目前为止最强大的模型，融合了多项关键技术 —— 潜在MoE、多词元预测（MTP）、NVFP4 预训练、多环境 RLVR、MOPD 以及推理预算控制。与当前公开可用的顶尖大语言模型相比，Nemotron 3 Ultra 在达到同等精度的同时，推理吞吐量最高可提升约 6 倍。其顶尖的精度、高推理吞吐量以及 100 万词元的上下文长度，使 Nemotron 3 Ultra 成为长时间自主代理任务的理想选择。我们在 HuggingFace 上开源了基础模型、后训练模型、量化模型，以及训练数据和配方。

查看 arXiv 页面查看 PDF 添加到收藏

在您的代理中获取此论文：

hf papers read 2606.15007

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 (0)

没有模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.15007，以便从此页面链接。

引用此论文的数据集 (0)

没有数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.15007，以便从此页面链接。

引用此论文的 Spaces (0)

没有 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.15007，以便从此页面链接。

Nemotron 3 Ultra：用于智能体推理的高效开源混合专家Mamba-Transformer模型

论文页面 - Nemotron 3 Ultra：用于智能推理的开放、高效混合专家Mamba-Transformer模型

摘要

引用此论文的模型 (0)

引用此论文的数据集 (0)

引用此论文的 Spaces (0)

包含此论文的收藏集 (4)

相似文章

Nemotron 3 Ultra。5500亿参数，550亿活跃参数，100万token上下文窗口

NVIDIA推出的Nemotron 3 Ultra

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4

@rasbt：又一个开源权重发布。Nemotron 3 Ultra 拥有令人印象深刻的性能效率比！在设计上，它……

提交意见反馈