nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face
摘要
NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。
# Model Summary
|**总参数**|550B (55B active)|
|:-|:-|
|**架构**|LatentMoE - Mamba-2 + MoE + Attention 混合,支持多令牌预测(MTP)|
|**上下文长度**|最高100万令牌|
|**最低GPU要求**|8x GB200/B200/GB300/B300, 16x H100, 8x H200|
|**支持语言**|英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语、中文|
|**最佳应用场景**|前沿推理、复杂智能体工作流、长上下文分析、工具使用、多语言推理、高风险RAG|
|**推理模式**|可通过聊天模板配置开关 (`enable_thinking=True/False`)|
|**许可证**|[OpenMDW 许可协议 1.1 版](https://raw.githubusercontent.com/OpenMDW/OpenMDW/refs/heads/main/1.1/LICENSE.OpenMDW-1.1)|
|**发布日期**|2026年6月4日|
# Nemotron是什么?
NVIDIA Nemotron™ 是一系列开放模型,具有开放的权重、训练数据和配方,为构建专用AI智能体提供领先的效率和准确性。
# 描述
**Nemotron-3-Ultra-550B-A55B-BF16** 是由 NVIDIA 训练的前沿规模大语言模型(LLM),旨在提供强大的智能体、推理和对话能力。它针对最苛刻的工作负载进行了优化,包括复杂的多步智能体、长上下文分析以及代码、数学和科学领域的高精度推理。与该系列的其他模型一样,它首先生成推理轨迹,然后给出最终回答来响应用户查询和任务。模型的推理能力可以通过聊天模板中的标志进行配置。该模型采用混合**潜在混合专家(LatentMoE)**架构,使用交错的 Mamba-2 和 MoE 层,以及选择性的注意力层。与 Super 模型一样,Ultra 模型集成了**多令牌预测(MTP)**层,以加快文本生成速度并提高质量,并且使用 **NVFP4** 预训练配方进行训练以最大化计算效率。该模型具有 **550亿活跃参数** 和 **5500亿总参数**。支持的语言包括:英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语和中文。该模型可用于商业和非商业用途。**太大而无法在本地运行,有人有8xH200吗?**
相似文章
@mervenoyann: NVIDIA Nemotron Ultra 来了 > 55B/550B 混合MoE  百万上下文窗口 > 支持MTP推测解码 > da…
NVIDIA发布了Nemotron Ultra,这是一个拥有55B/550B参数的混合MoE模型,具有百万上下文窗口,支持MTP推测解码,并在transformers中提供day-0支持。
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。
Nemotron 3 Ultra。5500亿参数,550亿活跃参数,100万token上下文窗口
NVIDIA发布Nemotron 3 Ultra,一个庞大的5500亿参数混合专家模型,具有550亿活跃参数和100万token的上下文窗口。
NVIDIA推出的Nemotron 3 Ultra
NVIDIA推出了Nemotron 3 Ultra,这是一个新的人工智能模型,旨在为长时间运行的智能体提供更快、更高效的推理能力。
NVIDIA Nemotron 3 Ultra 已发布。
NVIDIA 发布了 Nemotron 3 Ultra,这是一款新模型,旨在为长期运行的 AI 智能体提供更快、更高效的推理能力。