Nemotron 3 Ultra:用于智能体推理的高效开源混合专家Mamba-Transformer模型
摘要
Nemotron 3 Ultra 是一个550B参数的混合Mamba-Attention专家混合语言模型,在20T tokens上预训练,扩展至1M上下文,并通过SFT、RL和MOPD进行后训练。相比同等精度的一流LLM,其推理吞吐量最高可提升6倍,并已开源。
查看缓存全文
缓存时间: 2026/06/16 11:33
论文页面 - Nemotron 3 Ultra:用于智能推理的开放、高效混合专家Mamba-Transformer模型
来源:https://huggingface.co/papers/2606.15007 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Nemotron 3 Ultra 是一款大规模语言模型,采用混合 Mamba-Attention 架构,拥有 5500 亿参数,通过专门的训练技术实现了高推理吞吐量和扩展的上下文长度。
我们推出 Nemotron 3 Ultra,一个总参数 5500 亿、激活参数 550 亿的混合专家模型(混合专家)与 混合 Mamba-Attention 语言模型。我们在 20 万亿文本词元上对 Nemotron 3 Ultra 进行了预训练,随后将上下文长度扩展到 100 万词元,并使用监督微调(SFT)、强化学习(RL)和多教师同策略蒸馏(MOPD)进行后训练。Nemotron 3 Ultra 是我们目前为止最强大的模型,融合了多项关键技术 —— 潜在MoE、多词元预测(MTP)、NVFP4 预训练、多环境 RLVR、MOPD 以及推理预算控制。与当前公开可用的顶尖大语言模型相比,Nemotron 3 Ultra 在达到同等精度的同时,推理吞吐量最高可提升约 6 倍。其顶尖的精度、高推理吞吐量以及 100 万词元的上下文长度,使 Nemotron 3 Ultra 成为长时间自主代理任务的理想选择。我们在 HuggingFace 上开源了基础模型、后训练模型、量化模型,以及训练数据和配方。
在您的代理中获取此论文:
hf papers read 2606.15007
还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 (0)
没有模型链接此论文
请在模型的 README.md 中引用 arxiv.org/abs/2606.15007,以便从此页面链接。
引用此论文的数据集 (0)
没有数据集链接此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.15007,以便从此页面链接。
引用此论文的 Spaces (0)
没有 Space 链接此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.15007,以便从此页面链接。
包含此论文的收藏集 (4)
相似文章
Nemotron 3 Ultra。5500亿参数,550亿活跃参数,100万token上下文窗口
NVIDIA发布Nemotron 3 Ultra,一个庞大的5500亿参数混合专家模型,具有550亿活跃参数和100万token的上下文窗口。
NVIDIA推出的Nemotron 3 Ultra
NVIDIA推出了Nemotron 3 Ultra,这是一个新的人工智能模型,旨在为长时间运行的智能体提供更快、更高效的推理能力。
nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face
NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。
nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4
NVIDIA 发布 Nemotron-3-Ultra,一个拥有 5500 亿参数的开源权重模型,采用结合 Mamba-2、MoE 和注意力的混合架构,支持高达 100 万 token 的上下文长度和可配置的推理模式。
@rasbt:又一个开源权重发布。Nemotron 3 Ultra 拥有令人印象深刻的性能效率比!在设计上,它……
Nemotron 3 Ultra 是一个开源权重发布,具有令人印象深刻的性能效率比,采用 Mamba-2 与注意力机制的混合栈和 LatentMoE,并且比之前的 Super 变体更大。