nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

Reddit r/LocalLLaMA 2026/06/04 11:48 模型

large-language-model mixture-of-experts open-weights reasoning long-context agentic-ai nvidia

摘要

NVIDIA发布Nemotron-3-Ultra-550B-A55B，这是一个5500亿参数（550亿活跃参数）的前沿大语言模型，采用混合LatentMoE架构，结合Mamba-2、MoE和注意力层，支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言，并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。

# Model Summary |**总参数**|550B (55B active)| |:-|:-| |**架构**|LatentMoE - Mamba-2 + MoE + Attention 混合，支持多令牌预测（MTP）| |**上下文长度**|最高100万令牌| |**最低GPU要求**|8x GB200/B200/GB300/B300, 16x H100, 8x H200| |**支持语言**|英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语、中文| |**最佳应用场景**|前沿推理、复杂智能体工作流、长上下文分析、工具使用、多语言推理、高风险RAG| |**推理模式**|可通过聊天模板配置开关 (`enable_thinking=True/False`)| |**许可证**|[OpenMDW 许可协议 1.1 版](https://raw.githubusercontent.com/OpenMDW/OpenMDW/refs/heads/main/1.1/LICENSE.OpenMDW-1.1)| |**发布日期**|2026年6月4日| # Nemotron是什么？ NVIDIA Nemotron™ 是一系列开放模型，具有开放的权重、训练数据和配方，为构建专用AI智能体提供领先的效率和准确性。 # 描述 **Nemotron-3-Ultra-550B-A55B-BF16** 是由 NVIDIA 训练的前沿规模大语言模型（LLM），旨在提供强大的智能体、推理和对话能力。它针对最苛刻的工作负载进行了优化，包括复杂的多步智能体、长上下文分析以及代码、数学和科学领域的高精度推理。与该系列的其他模型一样，它首先生成推理轨迹，然后给出最终回答来响应用户查询和任务。模型的推理能力可以通过聊天模板中的标志进行配置。该模型采用混合**潜在混合专家（LatentMoE）**架构，使用交错的 Mamba-2 和 MoE 层，以及选择性的注意力层。与 Super 模型一样，Ultra 模型集成了**多令牌预测（MTP）**层，以加快文本生成速度并提高质量，并且使用 **NVFP4** 预训练配方进行训练以最大化计算效率。该模型具有 **550亿活跃参数** 和 **5500亿总参数**。支持的语言包括：英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语和中文。该模型可用于商业和非商业用途。**太大而无法在本地运行，有人有8xH200吗？**

查看原文

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

相似文章

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4

nvidia/NVIDIA-Nemotron-Labs-3-Puzzle-75B-A9B-BF16 · Hugging Face

@mervenoyann: NVIDIA Nemotron Ultra 来了 > 55B/550B 混合MoE 百万上下文窗口 > 支持MTP推测解码 > da…

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

nvidia/Nemotron-Labs-Audex-30B-A3B · Hugging Face

提交意见反馈