Nemotron 3 Ultra:用于智能体推理的高效开源混合专家Mamba-Transformer模型

Hugging Face Daily Papers 论文

摘要

Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型,在20T tokens上预训练,扩展至1M上下文,并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM,其推理吞吐量最高可提升6倍,并已开源。

我们推出 Nemotron 3 Ultra,一个总参数量5500亿、激活参数量550亿的混合专家(MoE)Mamba-Attention语言模型。我们在20万亿文本token上对Nemotron 3 Ultra进行了预训练,随后将上下文长度扩展至100万token,并使用监督微调(SFT)、强化学习(RL)和多教师在线策略蒸馏(MOPD)进行后训练。Nemotron 3 Ultra是我们能力最强的模型,融合了多项关键技术——LatentMoE、多token预测(MTP)、NVFP4预训练、多环境RLVR、MOPD以及推理预算控制。与当前公开的一流LLM相比,Nemotron 3 Ultra在保持同等精度的同时,推理吞吐量最高可提升约6倍。一流的精度、高推理吞吐量以及100万token的上下文长度,使得Nemotron 3 Ultra非常适合长期运行的自主智能体任务。我们已在HuggingFace上开源了基础版、后训练版和量化版检查点,以及训练数据和配方。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:33

论文页面 - Nemotron 3 Ultra:用于智能推理的开放、高效混合专家Mamba-Transformer模型

来源:https://huggingface.co/papers/2606.15007 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

Nemotron 3 Ultra 是一款大规模语言模型,采用混合 Mamba-Attention 架构,拥有 5500 亿参数,通过专门的训练技术实现了高推理吞吐量和扩展的上下文长度。

我们推出 Nemotron 3 Ultra,一个总参数 5500 亿、激活参数 550 亿的混合专家模型(混合专家)与 混合 Mamba-Attention 语言模型。我们在 20 万亿文本词元上对 Nemotron 3 Ultra 进行了预训练,随后将上下文长度扩展到 100 万词元,并使用监督微调(SFT)、强化学习(RL)和多教师同策略蒸馏(MOPD)进行后训练。Nemotron 3 Ultra 是我们目前为止最强大的模型,融合了多项关键技术 —— 潜在MoE多词元预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 以及推理预算控制。与当前公开可用的顶尖大语言模型相比,Nemotron 3 Ultra 在达到同等精度的同时,推理吞吐量最高可提升约 6 倍。其顶尖的精度、高推理吞吐量以及 100 万词元的上下文长度,使 Nemotron 3 Ultra 成为长时间自主代理任务的理想选择。我们在 HuggingFace 上开源了基础模型、后训练模型、量化模型,以及训练数据和配方。

查看 arXiv 页面 查看 PDF 添加到收藏

在您的代理中获取此论文:

hf papers read 2606.15007

还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 (0)

没有模型链接此论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.15007,以便从此页面链接。

引用此论文的数据集 (0)

没有数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.15007,以便从此页面链接。

引用此论文的 Spaces (0)

没有 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.15007,以便从此页面链接。

包含此论文的收藏集 (4)

相似文章

NVIDIA推出的Nemotron 3 Ultra

Product Hunt

NVIDIA推出了Nemotron 3 Ultra,这是一个新的人工智能模型,旨在为长时间运行的智能体提供更快、更高效的推理能力。

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

Reddit r/LocalLLaMA

NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4

Hugging Face Models Trending

NVIDIA 发布 Nemotron-3-Ultra,一个拥有 5500 亿参数的开源权重模型,采用结合 Mamba-2、MoE 和注意力的混合架构,支持高达 100 万 token 的上下文长度和可配置的推理模式。