"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"

Reddit r/LocalLLaMA 模型

摘要

NVIDIA发布了Nemotron 3开放模型,提供了Nano、Super、Ultra三种尺寸,通过混合Mamba Transformer、潜在MoE和多token预测等架构创新优化硬件效率,并采用Open MDW 1.1开放许可协议。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/11 14:02

TL;DR: Nvidia 根据用户常见算力配置发布了三种尺寸的 Neotron 3 模型(Nano、Super、Ultra),并在架构上通过混合 Mamba Transformer、潜在表示(Latent MoE)和多 token 预测(MTP)来优化硬件利用效率,同时采用开放许可协议。 ## 为什么是三种变体?——硬件决定模型规模 Nvidia 的 Joey 在采访中解释道,Neotron 3 的三种变体(Nano、Super、Ultra)是根据 Nvidia 安装基础中最常见的算力配置来确定的,目的是在准确性和成本/延迟/吞吐量之间提供多种权衡。 - **Nano**(300 亿总参数,30 亿激活参数)面向消费级硬件,发布时采用 MVFP4 格式,可将所需显存降至约 15 GB(相比 FP8 减半)。 - **Super**(1200 亿总参数,100 亿激活参数)接近服务器级 GPU(如 H100、A100),能在 80 GB 的 H100 上运行 FP8,并在 Blackwell 架构(B200、B300)下通过 MVFP4 获得算力加速;DGX Spark 也可运行。 - **Ultra**(5500 亿总参数,500 亿激活参数)规模与 DeepSeek V3 相当,需要多 GPU(AI 工厂级别),在基础模型准确率评估(下一 token 预测)中取得了“有史以来任何已发布基础模型中最高的准确率分数”。 ## 模型架构:混合 Mamba、潜在表示与多 token 预测 Nvidia 在模型层做了三项关键架构决策,以充分利用底层硬件。 ### 混合 Mamba Transformer 传统注意力机制的计算量随上下文窗口呈二次方增长,在企业场景(需处理大量上下文)中会显著增加内存占用,减少并发查询能力。Nvidia 采用 Mamba 2(一种状态空间模型,SSM)与全注意力层交织的方案。 - Mamba 2 不依赖 KV 缓存,而是将路径压缩成一个固定大小的矩阵,随 token 处理更新——类似 RNN 的隐藏状态。区别在于,Mamba 2 使用了硬件友好的算法,可高效并行化矩阵乘法。 - 这使内存需求恒定、呈线性而非二次方增长,从而支持 100 万 token 上下文窗口。同时,与全注意力层交织保留了捕捉广泛依赖关系的能力。 ### 潜在表示(Latent MoE) 混合专家模型(MoE)通过稀疏激活(只激活 10% 权重)降低 HBM 到 SRAM 的数据传输量。通过专家并行将专家分散到多个 GPU(如 8 个 3–8 TB/s 带宽的“漏斗”),能将大模型(如 5500 亿参数,4 位精度下约 275 GB)的读取时间从 91–34 毫秒降至每个 GPU 仅传输约 35 GB。 Neotron 的潜在 MoE 进一步优化:将每个 token 在维度上先下投影到更小的潜在表示,再在潜在表示上激活专家,减少路由和计算所需的内存带宽与计算量。Nvidia 利用这种“盈余”打包更多专家,使每个 token 能权衡更多专家,确保总是选出最佳组合。 ### 多 token 预测(MTP) 传统自回归生成一次只预测下一个 token。MTP 让模型同时预测后续多个 token(如 5 个),在训练阶段提升模型的表现力和前瞻能力。在推理时,MTP 可配合推测解码使用:模型先草拟几个 token,然后一次性检查并保留匹配的部分,从而跳过多个 token,加速生成速度。Neotron 3 支持这种用法。 ## 开放许可:Open MDW 1.1 AI 模型的开放程度常因许可证模糊而引发困惑。Apache 2.0 原本为软件设计,不涵盖模型权重、代码、文档、RL 环境、训练配方等多类工件。 Linux Foundation 修订了 Open MDW 许可证(1.0 → 1.1),以明确表述。Nvidia 采用了这一许可,用于 Neotron 模型以及 Cosmos、Isaac Groots 等项目。 --- Source: [How NVIDIA Built Nemotron 3 Open Model | Caleb Writes Code x Joey Conway](https://www.youtube.com/watch?v=wzHXUtkoY-c)

相似文章

NVIDIA Nemotron 3 Ultra 已发布。

Reddit r/LocalLLaMA

NVIDIA 发布了 Nemotron 3 Ultra,这是一款新模型,旨在为长期运行的 AI 智能体提供更快、更高效的推理能力。

NVIDIA推出的Nemotron 3 Ultra

Product Hunt

NVIDIA推出了Nemotron 3 Ultra,这是一个新的人工智能模型,旨在为长时间运行的智能体提供更快、更高效的推理能力。