nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face

Reddit r/LocalLLaMA 模型

摘要

NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。

# Model Summary |**总参数**|550B (55B active)| |:-|:-| |**架构**|LatentMoE - Mamba-2 + MoE + Attention 混合,支持多令牌预测(MTP)| |**上下文长度**|最高100万令牌| |**最低GPU要求**|8x GB200/B200/GB300/B300, 16x H100, 8x H200| |**支持语言**|英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语、中文| |**最佳应用场景**|前沿推理、复杂智能体工作流、长上下文分析、工具使用、多语言推理、高风险RAG| |**推理模式**|可通过聊天模板配置开关 (`enable_thinking=True/False`)| |**许可证**|[OpenMDW 许可协议 1.1 版](https://raw.githubusercontent.com/OpenMDW/OpenMDW/refs/heads/main/1.1/LICENSE.OpenMDW-1.1)| |**发布日期**|2026年6月4日| # Nemotron是什么? NVIDIA Nemotron™ 是一系列开放模型,具有开放的权重、训练数据和配方,为构建专用AI智能体提供领先的效率和准确性。 # 描述 **Nemotron-3-Ultra-550B-A55B-BF16** 是由 NVIDIA 训练的前沿规模大语言模型(LLM),旨在提供强大的智能体、推理和对话能力。它针对最苛刻的工作负载进行了优化,包括复杂的多步智能体、长上下文分析以及代码、数学和科学领域的高精度推理。与该系列的其他模型一样,它首先生成推理轨迹,然后给出最终回答来响应用户查询和任务。模型的推理能力可以通过聊天模板中的标志进行配置。该模型采用混合**潜在混合专家(LatentMoE)**架构,使用交错的 Mamba-2 和 MoE 层,以及选择性的注意力层。与 Super 模型一样,Ultra 模型集成了**多令牌预测(MTP)**层,以加快文本生成速度并提高质量,并且使用 **NVFP4** 预训练配方进行训练以最大化计算效率。该模型具有 **550亿活跃参数** 和 **5500亿总参数**。支持的语言包括:英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、韩语、巴西葡萄牙语和中文。该模型可用于商业和非商业用途。**太大而无法在本地运行,有人有8xH200吗?**
查看原文

相似文章

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

Hugging Face Models Trending

NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。

NVIDIA推出的Nemotron 3 Ultra

Product Hunt

NVIDIA推出了Nemotron 3 Ultra,这是一个新的人工智能模型,旨在为长时间运行的智能体提供更快、更高效的推理能力。

NVIDIA Nemotron 3 Ultra 已发布。

Reddit r/LocalLLaMA

NVIDIA 发布了 Nemotron 3 Ultra,这是一款新模型,旨在为长期运行的 AI 智能体提供更快、更高效的推理能力。