"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"

Reddit r/LocalLLaMA 2026/06/11 08:54 模型

nvidia nemotron-3 open-model mamba-transformer mixture-of-experts multi-token-prediction open-license

摘要

NVIDIA发布了Nemotron 3开放模型，提供了Nano、Super、Ultra三种尺寸，通过混合Mamba Transformer、潜在MoE和多token预测等架构创新优化硬件效率，并采用Open MDW 1.1开放许可协议。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/11 14:02

TL;DR: Nvidia 根据用户常见算力配置发布了三种尺寸的 Neotron 3 模型（Nano、Super、Ultra），并在架构上通过混合 Mamba Transformer、潜在表示（Latent MoE）和多 token 预测（MTP）来优化硬件利用效率，同时采用开放许可协议。 ## 为什么是三种变体？——硬件决定模型规模 Nvidia 的 Joey 在采访中解释道，Neotron 3 的三种变体（Nano、Super、Ultra）是根据 Nvidia 安装基础中最常见的算力配置来确定的，目的是在准确性和成本/延迟/吞吐量之间提供多种权衡。 - **Nano**（300 亿总参数，30 亿激活参数）面向消费级硬件，发布时采用 MVFP4 格式，可将所需显存降至约 15 GB（相比 FP8 减半）。 - **Super**（1200 亿总参数，100 亿激活参数）接近服务器级 GPU（如 H100、A100），能在 80 GB 的 H100 上运行 FP8，并在 Blackwell 架构（B200、B300）下通过 MVFP4 获得算力加速；DGX Spark 也可运行。 - **Ultra**（5500 亿总参数，500 亿激活参数）规模与 DeepSeek V3 相当，需要多 GPU（AI 工厂级别），在基础模型准确率评估（下一 token 预测）中取得了“有史以来任何已发布基础模型中最高的准确率分数”。 ## 模型架构：混合 Mamba、潜在表示与多 token 预测 Nvidia 在模型层做了三项关键架构决策，以充分利用底层硬件。 ### 混合 Mamba Transformer 传统注意力机制的计算量随上下文窗口呈二次方增长，在企业场景（需处理大量上下文）中会显著增加内存占用，减少并发查询能力。Nvidia 采用 Mamba 2（一种状态空间模型，SSM）与全注意力层交织的方案。 - Mamba 2 不依赖 KV 缓存，而是将路径压缩成一个固定大小的矩阵，随 token 处理更新——类似 RNN 的隐藏状态。区别在于，Mamba 2 使用了硬件友好的算法，可高效并行化矩阵乘法。 - 这使内存需求恒定、呈线性而非二次方增长，从而支持 100 万 token 上下文窗口。同时，与全注意力层交织保留了捕捉广泛依赖关系的能力。 ### 潜在表示（Latent MoE）混合专家模型（MoE）通过稀疏激活（只激活 10% 权重）降低 HBM 到 SRAM 的数据传输量。通过专家并行将专家分散到多个 GPU（如 8 个 3–8 TB/s 带宽的“漏斗”），能将大模型（如 5500 亿参数，4 位精度下约 275 GB）的读取时间从 91–34 毫秒降至每个 GPU 仅传输约 35 GB。 Neotron 的潜在 MoE 进一步优化：将每个 token 在维度上先下投影到更小的潜在表示，再在潜在表示上激活专家，减少路由和计算所需的内存带宽与计算量。Nvidia 利用这种“盈余”打包更多专家，使每个 token 能权衡更多专家，确保总是选出最佳组合。 ### 多 token 预测（MTP）传统自回归生成一次只预测下一个 token。MTP 让模型同时预测后续多个 token（如 5 个），在训练阶段提升模型的表现力和前瞻能力。在推理时，MTP 可配合推测解码使用：模型先草拟几个 token，然后一次性检查并保留匹配的部分，从而跳过多个 token，加速生成速度。Neotron 3 支持这种用法。 ## 开放许可：Open MDW 1.1 AI 模型的开放程度常因许可证模糊而引发困惑。Apache 2.0 原本为软件设计，不涵盖模型权重、代码、文档、RL 环境、训练配方等多类工件。 Linux Foundation 修订了 Open MDW 许可证（1.0 → 1.1），以明确表述。Nvidia 采用了这一许可，用于 Neotron 模型以及 Cosmos、Isaac Groots 等项目。 --- Source: [How NVIDIA Built Nemotron 3 Open Model | Caleb Writes Code x Joey Conway](https://www.youtube.com/watch?v=wzHXUtkoY-c)

Nvidia的Nemotron系列是最开源的一系列模型。我发现：- 基准测试要求 - 所有GitHub仓库 - 所有数据 - 权重而且它们表现很好，实际上非常独特。他们发布NVFP4基准测试，结果仅差1% https://t.co/dQ2PwarUfO

X AI KOLs Following

Nvidia的Nemotron系列AI模型完全开源，包含基准测试、GitHub仓库、数据和权重，性能上与NVFP4基准测试仅差1%。

NVIDIA推出的Nemotron 3 Ultra

Product Hunt

NVIDIA推出了Nemotron 3 Ultra，这是一个新的人工智能模型，旨在为长时间运行的智能体提供更快、更高效的推理能力。

"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"

相似文章

@llm_wizard: 顺便说一下，我们直接发布了构建Nemotron模型所需的一切，包括配方和流水线。https://…

NVIDIA Nemotron 3 Ultra 已发布。

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

Nvidia的Nemotron系列是最开源的一系列模型。我发现：- 基准测试要求 - 所有GitHub仓库 - 所有数据 - 权重而且它们表现很好，实际上非常独特。他们发布NVFP4基准测试，结果仅差1% https://t.co/dQ2PwarUfO

NVIDIA推出的Nemotron 3 Ultra

提交意见反馈

相似文章

@llm_wizard: 顺便说一下，我们直接发布了构建Nemotron模型所需的一切，包括配方和流水线。https://…

NVIDIA Nemotron 3 Ultra 已发布。

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

Nvidia的Nemotron系列是最开源的一系列模型。我发现：- 基准测试要求 - 所有GitHub仓库 - 所有数据 - 权重 而且它们表现很好，实际上非常独特。他们发布NVFP4基准测试，结果仅差1% https://t.co/dQ2PwarUfO

NVIDIA推出的Nemotron 3 Ultra

提交意见反馈

Nvidia的Nemotron系列是最开源的一系列模型。我发现：- 基准测试要求 - 所有GitHub仓库 - 所有数据 - 权重而且它们表现很好，实际上非常独特。他们发布NVFP4基准测试，结果仅差1% https://t.co/dQ2PwarUfO