"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"
摘要
NVIDIA发布了Nemotron 3开放模型,提供了Nano、Super、Ultra三种尺寸,通过混合Mamba Transformer、潜在MoE和多token预测等架构创新优化硬件效率,并采用Open MDW 1.1开放许可协议。
暂无内容
查看缓存全文
缓存时间: 2026/06/11 14:02
TL;DR: Nvidia 根据用户常见算力配置发布了三种尺寸的 Neotron 3 模型(Nano、Super、Ultra),并在架构上通过混合 Mamba Transformer、潜在表示(Latent MoE)和多 token 预测(MTP)来优化硬件利用效率,同时采用开放许可协议。
## 为什么是三种变体?——硬件决定模型规模
Nvidia 的 Joey 在采访中解释道,Neotron 3 的三种变体(Nano、Super、Ultra)是根据 Nvidia 安装基础中最常见的算力配置来确定的,目的是在准确性和成本/延迟/吞吐量之间提供多种权衡。
- **Nano**(300 亿总参数,30 亿激活参数)面向消费级硬件,发布时采用 MVFP4 格式,可将所需显存降至约 15 GB(相比 FP8 减半)。
- **Super**(1200 亿总参数,100 亿激活参数)接近服务器级 GPU(如 H100、A100),能在 80 GB 的 H100 上运行 FP8,并在 Blackwell 架构(B200、B300)下通过 MVFP4 获得算力加速;DGX Spark 也可运行。
- **Ultra**(5500 亿总参数,500 亿激活参数)规模与 DeepSeek V3 相当,需要多 GPU(AI 工厂级别),在基础模型准确率评估(下一 token 预测)中取得了“有史以来任何已发布基础模型中最高的准确率分数”。
## 模型架构:混合 Mamba、潜在表示与多 token 预测
Nvidia 在模型层做了三项关键架构决策,以充分利用底层硬件。
### 混合 Mamba Transformer
传统注意力机制的计算量随上下文窗口呈二次方增长,在企业场景(需处理大量上下文)中会显著增加内存占用,减少并发查询能力。Nvidia 采用 Mamba 2(一种状态空间模型,SSM)与全注意力层交织的方案。
- Mamba 2 不依赖 KV 缓存,而是将路径压缩成一个固定大小的矩阵,随 token 处理更新——类似 RNN 的隐藏状态。区别在于,Mamba 2 使用了硬件友好的算法,可高效并行化矩阵乘法。
- 这使内存需求恒定、呈线性而非二次方增长,从而支持 100 万 token 上下文窗口。同时,与全注意力层交织保留了捕捉广泛依赖关系的能力。
### 潜在表示(Latent MoE)
混合专家模型(MoE)通过稀疏激活(只激活 10% 权重)降低 HBM 到 SRAM 的数据传输量。通过专家并行将专家分散到多个 GPU(如 8 个 3–8 TB/s 带宽的“漏斗”),能将大模型(如 5500 亿参数,4 位精度下约 275 GB)的读取时间从 91–34 毫秒降至每个 GPU 仅传输约 35 GB。
Neotron 的潜在 MoE 进一步优化:将每个 token 在维度上先下投影到更小的潜在表示,再在潜在表示上激活专家,减少路由和计算所需的内存带宽与计算量。Nvidia 利用这种“盈余”打包更多专家,使每个 token 能权衡更多专家,确保总是选出最佳组合。
### 多 token 预测(MTP)
传统自回归生成一次只预测下一个 token。MTP 让模型同时预测后续多个 token(如 5 个),在训练阶段提升模型的表现力和前瞻能力。在推理时,MTP 可配合推测解码使用:模型先草拟几个 token,然后一次性检查并保留匹配的部分,从而跳过多个 token,加速生成速度。Neotron 3 支持这种用法。
## 开放许可:Open MDW 1.1
AI 模型的开放程度常因许可证模糊而引发困惑。Apache 2.0 原本为软件设计,不涵盖模型权重、代码、文档、RL 环境、训练配方等多类工件。
Linux Foundation 修订了 Open MDW 许可证(1.0 → 1.1),以明确表述。Nvidia 采用了这一许可,用于 Neotron 模型以及 Cosmos、Isaac Groots 等项目。
---
Source: [How NVIDIA Built Nemotron 3 Open Model | Caleb Writes Code x Joey Conway](https://www.youtube.com/watch?v=wzHXUtkoY-c)
相似文章
@llm_wizard: 顺便说一下,我们直接发布了构建Nemotron模型所需的一切,包括配方和流水线。https://…
NVIDIA发布了Nemotron仓库,其中包含开放的训练配方、流水线和模型权重,用于他们的Nemotron模型,包括新的Nemotron 3 Ultra和Nemotron 3 Nano Omni,支持智能体AI和多模态能力。
NVIDIA Nemotron 3 Ultra 已发布。
NVIDIA 发布了 Nemotron 3 Ultra,这是一款新模型,旨在为长期运行的 AI 智能体提供更快、更高效的推理能力。
NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。
Nvidia的Nemotron系列是最开源的一系列模型。我发现:- 基准测试要求 - 所有GitHub仓库 - 所有数据 - 权重 而且它们表现很好,实际上非常独特。他们发布NVFP4基准测试,结果仅差1% https://t.co/dQ2PwarUfO
Nvidia的Nemotron系列AI模型完全开源,包含基准测试、GitHub仓库、数据和权重,性能上与NVFP4基准测试仅差1%。
NVIDIA推出的Nemotron 3 Ultra
NVIDIA推出了Nemotron 3 Ultra,这是一个新的人工智能模型,旨在为长时间运行的智能体提供更快、更高效的推理能力。