nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4

Hugging Face Models Trending 模型

摘要

NVIDIA 发布 Nemotron-3-Ultra,一个拥有 5500 亿参数的开源权重模型,采用结合 Mamba-2、MoE 和注意力的混合架构,支持高达 100 万 token 的上下文长度和可配置的推理模式。

任务:文本生成 标签:transformers, safetensors, nvidia, pytorch, nemotron-3, latent-moe, mtp, text-generation, conversational, en, fr, es, it, de, pt, ja, ko, hi, ar, zh, he, 数据集:nvidia/nemotron-post-training-v3, 数据集:nvidia/nemotron-pre-training-datasets, 许可证:other, 评估结果, endpoints_compatible, 8-bit, 区域:us
查看原文
查看缓存全文

缓存时间: 2026/06/05 14:07

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 · Hugging Face 来源:https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 配置解析警告:配置文件 config.json 无法获取(过大) 聊天 (https://build.nvidia.com/nvidia/nemotron-3-ultra-550b-a55b) 论文 (https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf) 预训练数据集 (https://huggingface.co/collections/nvidia/nemotron-pre-training-datasets) 后训练数据集 (https://huggingface.co/collections/nvidia/nemotron-post-training-v3) 主页 (https://developer.nvidia.com/nemotron) Discord (https://discord.gg/9xpKQtVvrk) 许可证 (https://openmdw.ai/license/1-1/) ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#model-summary 模型摘要 总参数量550B(55B 激活)架构LatentMoE – Mamba-2 + MoE + Attention 混合架构,支持多 Token 预测(MTP)上下文长度最多 1M tokens最低 GPU 要求4xGB200、4xB200、4x GB300、4x B300、8xH100支持语言英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语和中文最佳用途前沿推理、复杂智能体工作流、长上下文分析、工具使用、多语言推理、高风险的 RAG推理模式可通过聊天模板配置开关(enable_thinking=True/False许可证OpenMDW 许可协议 1.1 版 (https://raw.githubusercontent.com/OpenMDW/OpenMDW/refs/heads/main/1.1/LICENSE.OpenMDW-1.1)发布日期2026 年 6 月 4 日 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#quick-start 快速开始 有关如何部署和使用模型的更多详细信息,请参见下面的快速开始指南 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#quick-start-guide)! ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#model-overview 模型概述 模型开发者:NVIDIA 公司 模型日期:2025 年 12 月 – 2026 年 4 月 数据新鲜度: - 后训练数据的截止日期为 2026 年 5 月。 - 预训练数据的截止日期为 2025 年 9 月。 ### https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#what-is-nemotron 什么是 Nemotron? NVIDIA Nemotron™ 是一个开放模型系列,具有开放权重、训练数据和配方,为构建专用 AI 智能体提供领先的效率和准确性。 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#description 描述 Nemotron-3-Ultra-550B-A55B-NVFP4 是由 NVIDIA 训练的前沿规模大语言模型(LLM),旨在提供强大的智能体、推理和对话能力。它针对最严苛的工作负载进行了优化,包括复杂的多步智能体、长上下文分析以及代码、数学和科学领域的高精度推理。与该系列中的其他模型一样,它通过首先生成推理轨迹,然后给出最终回复来响应用户查询和任务。模型的推理能力可通过聊天模板中的一个标志进行配置。该模型采用混合的 Latent Mixture-of-Experts (LatentMoE) 架构,交织使用 Mamba-2 和 MoE 层,以及部分 Attention 层。与 Super 模型一样,Ultra 模型集成了 Multi-Token Prediction (MTP) 层,以实现更快的文本生成和更高的质量,并使用 NVFP4 预训练配方进行训练,以最大化计算效率。该模型具有 55B 激活参数550B 总参数。支持的语言包括:英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语和中文。此模型可用于商业和非商业用途。 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#licenseterms-of-use 许可证/使用条款 下载条款:使用此模型需遵守 OpenMDW-1.1 模型许可证 (https://openmdw.ai/license/1-1/)。 ### https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#benchmarks 基准测试 基准Nemotron 3 Ultra BF16Nemotron 3 Ultra NVFP4智能体Terminal Bench 2.156.453.9GDPVal46.747.9SWE-Bench Verified71.969.7SWE-Bench Multilingual67.765.8ProfBench (Search)5656.4PinchBench9089.8TauBench V3Airline81.580.0Retail86.488.4Telecom92.993.6Banking22.619.2平均70.970.3BrowseComp44.441.4推理与知识IOI 2025570.0564.7GPQA (无工具)87.087.9SciCode (子任务)44.643.5HLE (无工具)26.726.1CritPt (无工具)3.13.4OmniScience Accuracy24.124.6OmniScience Non-Hallucination78.775.5聊天与指令遵循IFBench (提示)81.782.3长上下文AA-LCR65.465.5RULER 1M94.794.0 所有评估结果均通过 Nemo Evaluator SDK (https://github.com/NVIDIA-NeMo/Evaluator) 收集。我们使用了三个主要的评估框架:Nemo Gym (https://github.com/NVIDIA-NeMo/Gym)、Nemo Skills (https://github.com/NVIDIA-NeMo/Skills) 和 Harbor (https://github.com/harbor-framework/harbor),并通过 AWS ECS 在 Nemo Evaluator 上扩展了沙箱支持。此外,评估还使用了 ScaleAI Multi Challenge Multi Turn Instruction Following 和 KernelBench 的专用开源打包容器。出于可重现性目的,有关评估设置和固定容器的更多详细信息可在 Nemo Evaluator SDK 示例文件夹 (https://github.com/NVIDIA-NeMo/Evaluator/blob/main/examples/nemotron/nemotron-3-ultra) 和 Nemotron 3 Ultra 的可重现性教程 (https://github.com/NVIDIA-NeMo/Evaluator/blob/main/examples/nemotron/nemotron-3-ultra/reproducibility.md) 中找到。以下基准测试尚未在我们的开源工具中集成,对于这些测试,我们使用了其官方开源实现或内部脚手架(计划未来开源):BrowseComp with Search、Tau Bench 3、ProfBench with Search、PinchBench、Vals.ai、LongBench v2。 ### https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#deployment-geography-global 部署地域:全球 ### https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#use-case 使用案例 NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 是一个前沿规模的通用推理和聊天模型,旨在用于英语、代码以及支持的多语言场景。此模型针对复杂的智能体工作流、长上下文推理和高风险分析工作负载进行了优化。它适用于设计 AI 智能体系统、聊天机器人、RAG 系统以及其他 AI 驱动的应用的开发者。此模型也适用于复杂的指令遵循任务以及对超大文档和代码库进行长上下文推理。 ### https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#release-date 发布日期 Hugging Face – 2026 年 6 月 4 日,通过 Hugging Face (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4) ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#references 参考文献 - Hugging Face 上的 NVIDIA Nemotron 3 模型系列 (https://huggingface.co/collections/nvidia/nvidia-nemotron-v3) - NVIDIA Nemotron 3 Ultra 技术报告 (https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf) ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#model-architecture 模型架构 - **架构类型:**Mamba2-Transformer 混合神经网络架构,包含 Latent Mixture of Experts (LatentMoE) 和 Multi-Token Prediction (MTP) - **网络架构:**Nemotron Hybrid LatentMoE - **模型参数数量:**550B 总参数 / 55B 激活参数 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#model-design 模型设计 该模型采用 LatentMoE 架构,其中 token 被投影到更小的潜在维度以进行专家路由和计算,从而提高每字节的准确性。Ultra 模型使用 NVFP4 配方进行预训练——共享 Nemotron 3 系列中首创的量化感知预训练方法。大多数线性层使用 NVFP4 用于权重、激活和梯度,而某些层(包括潜在投影、MTP 层、QKV/注意力投影和嵌入)则保持 BF16 或 MXFP8 以保持训练稳定性。该模型包含 Multi-Token Prediction (MTP) 层,在预测头之间使用共享权重设计。这提高了训练信号质量,通过原生推测解码实现更快的推理,并且与独立训练的偏移头相比,在更长的推测长度下支持更稳定的自回归草稿生成。 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#training-methodology 训练方法 阶段 1:预训练 - NVIDIA-Nemotron-3-Ultra-550B-A55B-Base-BF16 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-Base-BF16) 模型在约 20T 个 token 上进行了预训练,使用了爬取和合成的代码、数学、科学和通用知识数据。训练利用了 NVFP4 配方以提高效率。所有数据集均在本文档的训练和评估数据集 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#training-and-evaluation-datasets) 部分披露。预训练语料库的主要部分已在 Nemotron-Pre-Training-Datasets (https://huggingface.co/collections/nvidia/nemotron-pre-training-datasets) 集合中发布。 - 用于预训练的软件:Megatron-LM (https://github.com/NVIDIA/Megatron-LM) 阶段 2:监督微调 - 模型进一步在合成的代码、数学、科学、工具调用、指令遵循、结构化输出和通用知识数据上进行了微调。此阶段包含了支持长距离检索和多文档聚合的数据。所有数据集均在本文档的训练和评估数据集 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#training-and-evaluation-datasets) 部分披露。微调语料库的主要部分已在 Nemotron-Post-Training-v3 (https://huggingface.co/collections/nvidia/nemotron-post-training-v3) 集合中发布。Data Designer (https://github.com/NVIDIA-NeMo/DataDesigner) 是用于准备这些语料库的库之一。 阶段 3:强化学习 - 该模型在数学、代码、科学、指令遵循、多步工具使用、多轮对话和结构化输出环境中,使用异步 GRPO(Group Relative Policy Optimization)进行了多环境强化学习。它利用异步 RL 架构,将训练与推理完全解耦到不同的 GPU 设备上,利用动态权重更新和 MTP 加速 rollout 生成。通过 RLHF 进一步优化了对话质量。所有数据集均在本文档的训练和评估数据集 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#training-and-evaluation-datasets) 部分披露。RL 环境和数据集作为 NeMo Gym (https://github.com/NVIDIA-NeMo/Gym) 的一部分发布。 - 用于强化学习的软件:NeMo RL (https://github.com/NVIDIA-NeMo/RL)、NeMo Gym (https://github.com/NVIDIA-NeMo/Gym) 阶段 4:多领域策略蒸馏 (MOPD) - 该模型进行了 Multi-Domain On-Policy Distillation (MOPD),以在保持高效的同时改善多种任务类型的推理能力。此技术使用强大的教师模型来指导模型自身生成的尝试(策略 rollout)上的训练,帮助恢复准确性并提高编码、数学、指令遵循、工具使用和智能体工作流中的性能。通过将教师信号蒸馏到学生自身的轨迹(而非离线跟踪),MOPD 更好地使学生的行为与其在推理时实际产生的结果对齐,从而比纯 off-policy 蒸馏产生更强的增益。NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4 模型是上述工作的成果。端到端训练配方可在 NVIDIA Nemotron 开发者仓库 (https://github.com/NVIDIA-NeMo/Nemotron) 中找到。评估结果可使用 NeMo Evaluator SDK (https://github.com/NVIDIA-NeMo/Evaluator) 复制。Data Designer (https://github.com/NVIDIA-NeMo/DataDesigner) 是用于准备预训练和后训练数据集的库之一。有关数据集和合成数据生成方法的更多详细信息,请参阅技术报告 NVIDIA Nemotron 3 Ultra Technical Report (https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf)。 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#input 输入 - **输入类型:**文本 - **输入格式:**字符串 - **输入参数:**一维(1D):序列 - **与输入相关的其他属性:**最大上下文长度最多 1M tokens。支持的语言包括:英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语和中文。 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#output 输出 - **输出类型:**文本 - **输出格式:**字符串 - **输出参数:**一维(1D):序列 - **与输出相关的其他属性:**最大上下文长度最多 1M tokens 我们的 AI 模型专为在 NVIDIA GPU 加速系统上运行而设计和优化。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#software-integration 软件集成 - 运行时引擎:NeMo 26.04.01 - 支持的硬件微架构兼容性:NVIDIA Ampere – A100;NVIDIA Blackwell;NVIDIA Hopper – H100-80GB - 操作系统:Linux 将基础模型和微调模型集成到 AI 系统中需要额外的测试,使用特定用例的数据来确保安全有效的部署。遵循 V 模型方法论,在单元和系统级别进行迭代测试和验证对于降低风险、满足技术和功能要求以及确保在部署前符合安全和道德标准至关重要。 ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#model-versions 模型版本 - v1.0 – GA ## https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#quick-start-guide 快速开始指南 Ultra NVFP4 检查点是一个前沿规模的模型,经过量化以在最新硬件上获得最大吞吐量。建议的最低硬件配置为: - **单节点:**4× B200(可容纳 NVFP4 权重和 KV 缓存,并留有余量) - 多节点:≥4 个 GPU,跨 GB200 / GB300 以下所有部署片段默认使用 8000 端口,并启用分块预填充、NVFP4 KV 缓存和 MTP(5 个推测 token)。 ### https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4#multi-node-setup-with-ray-recommended-for-multi-node-deployments 使用 Ray 进行多节点设置(推荐用于多节点部署) 多节点部署推荐的多处理后端是 Ray v2。以下是启动 Ray 集群的模板: `` # 设置头节点的 IP 到 RAY_HEAD_IP export RAY_HEAD_IP= export RAY_PORT=6379 export RAY_ADDRESS={RAY_HEAD_IP}:{RAY_PORT} # 启动 Ray 头节点(vLLM/SGLang 将在此节点上运行) ray start –head –node-ip-address={RAY_HEAD_IP} --port={RAY_PORT} # 启动 Ray 工作节点 ray start –address={RAY_HEAD_IP}:{RAY_PORT

相似文章

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

Reddit r/LocalLLaMA

NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

Hugging Face Models Trending

NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。

NVIDIA Nemotron 3 Ultra 已发布。

Reddit r/LocalLLaMA

NVIDIA 发布了 Nemotron 3 Ultra,这是一款新模型,旨在为长期运行的 AI 智能体提供更快、更高效的推理能力。