@llm_wizard: 顺便说一下，我们直接发布了构建Nemotron模型所需的一切，包括配方和流水线。https://…

X AI KOLs Following 2026/06/09 19:10 模型

open-source nvidia nemotron training-recipe agentic-ai multimodal moe

摘要

NVIDIA发布了Nemotron仓库，其中包含开放的训练配方、流水线和模型权重，用于他们的Nemotron模型，包括新的Nemotron 3 Ultra和Nemotron 3 Nano Omni，支持智能体AI和多模态能力。

顺便说一下，我们直接发布了构建Nemotron模型所需的一切，包括配方和流水线。https://github.com/NVIDIA-NeMo/Nemotron/tree/main…

查看原文

查看缓存全文

缓存时间: 2026/06/10 07:45

顺便说一句，我们直接发布了构建 Nemotron 模型所需的全部内容，包括配方和流程。https://github.com/NVIDIA-NeMo/Nemotron/tree/main… — # NVIDIA-NeMo/Nemotron 来源：https://github.com/NVIDIA-NeMo/Nemotron # NVIDIA Nemotron 开发者仓库 面向智能体 AI 的高效开放模型。 Nemotron 系列的训练配方、部署指南及使用案例。Python 3.10+ (https://www.python.org/downloads/) 许可证：Apache 2.0 (https://opensource.org/licenses/Apache-2.0) 欢迎贡献文档 (https://nvidia-nemo.github.io/Nemotron/dev/) 观看 Nemotron 概述 (https://www.youtube.com/watch?v=_y9SEtn1lU8) 观看：Nemotron 概述 (https://www.youtube.com/watch?v=_y9SEtn1lU8) — > 🎉Nemotron 3 Ultra 在 GTC San Jose 2026 上发布 (https://www.youtube.com/live/q_umfWm8J28?t=4568s)\。该模型在 Hugging Face 上开源 (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16)，训练配方现已在该仓库中提供。要了解更多信息，请查看使用指南\！ > > 🎉Nemotron 3 Nano Omni 现已发布——一个 30B-A3B 混合 Mamba-Transformer MoE 模型，原生支持文本、图像、视频和音频，专为智能体 AI 设计的多模态感知子智能体。请参阅发布博文 (https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/)、训练配方和模型权重 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)。 — ## 为什么选择 Nemotron？ | | | |—|—| | 开放模型 | 完全透明的训练数据、技术和权重，支持社区创新 | | 计算效率 | 模型剪枝与优化，通过 TensorRT-LLM 实现更高吞吐量 | | 高精度 | 基于前沿开放模型，结合与人类对齐的推理能力，支持智能体工作流 | | 灵活部署 | 可在任意位置部署：边缘端、单 GPU 或数据中心，支持 NIM 微服务 | — ## 在 Claude Code 中使用本仓库附带一个名为 nemotron-customize 的 Claude Code 插件，它将 src/nemotron/steps/ 下的步骤目录转换为以仓库为中心的引导式流程构建器。一次性安装： text /plugin marketplace add NVIDIA/Nemotron /plugin install nemotron-customize@nvidia-nemotron 然后，从仓库根目录启动 Claude Code 并调用该技能： bash cd /path/to/Nemotron # 仓库根目录：必须包含 pyproject.toml 和 src/nemotron/steps/ claude text /nemotron-customize 该技能会相对于当前工作目录解析所有文件路径，因此必须在 Nemotron 检出根目录中调用。从子目录运行会导致文件读取失败。该技能会规划步骤 DAG，验证工件连接，并发出运行所需流程所需的 YAML 配置。请参阅 skills/nemotron-customize/SKILL.md 了解完整契约。 > 市场仅安装 nemotron-customize。skills/ 下的其他文件夹（模型知识库、贡献者添加的*技能）保留在磁盘上供仓库浏览，但不会作为插件加载。 — ## 仓库概述 nemotron/ │ ├── src/nemotron/steps/ 用于训练、评估、SDG 等的模块化构建块 │ ├── src/nemotron/recipes/ 训练配方（完整、可重现的流程） │ ├── usage-cookbook/ 使用烹饪书（部署和模型使用指南） │ └── use-case-examples/ 在智能体工作流中利用 Nemotron 的示例 ### 我应该使用哪个部分？ | | Nemotron 步骤 | 训练配方 | 使用烹饪书 | 用例示例 | |—|—|—|—|—| | 目的 | 全生命周期构建块，链接数据准备、训练、评估及其他步骤 | 重现从原始数据到模型的完整训练流程 | 部署和使用已训练的模型 | 构建端到端应用 | | 格式 | nemotron steps CLI 和 YAML 配置 | 包含配置、脚本和评估的 Python 包 | 逐步骤指导的 Jupyter 笔记本 | Jupyter 笔记本和脚本 | | 何时使用 | 你想独立运行一个阶段或组合自定义流程 | 你想训练、微调或了解模型构建方式 | 你已有模型并希望部署或运行推理 | 你想构建应用（RAG、智能体、工具使用） | | 位置 | src/nemotron/steps/ | src/nemotron/recipes/ | usage-cookbook/ | use-case-examples/ | — ## 什么是 Nemotron？ NVIDIA Nemotron (https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/) 是一个开放、高效的多模态模型系列，专为智能体 AI 构建。 模型层级： - Nano — 针对边缘和 PC 部署优化 - Super — 单 GPU 部署，吞吐量最高 - Ultra — 多 GPU 数据中心应用 Nemotron 模型在编码、数学、科学推理、工具调用、指令遵循和视觉推理方面表现出色。可部署在边缘端、单 GPU 或数据中心环境，支持 NeMo、TensorRT-LLM、vLLM、SGLang 和 NIM 微服务。 — ## Nemotron 步骤 Nemotron 步骤 是一个命名的、可重用的工作单元，通过 nemotron steps CLI 调用。每个步骤包含其执行工作的描述、它消耗和产生的工件，以及一个或多个提供参数值的命名配置。步骤位于 src/nemotron/steps/，CLI 在启动时发现它们。下一节的训练配方由这些步骤组成。当你只需要一个阶段时，可以单独运行一个步骤；当你需要与已发布配方不同的流程结构时，可以将步骤链接起来。 ### 步骤类别目录涵盖完整训练生命周期。 - 使用 curate/* 和 data_prep/* 进行数据整理和准备。 - 使用 sdg/* 进行合成数据生成 (SDG)。 - 使用 translate/* 进行语料翻译。 - 使用 byob/* 生成自带基准。 - 使用 pretrain/*、sft/*、peft/* 和 rl/* 进行预训练、监督微调 (SFT)、参数高效微调 (PEFT) 和强化学习 (RL)。 - 使用 convert/* 和 optimize/* 进行检查点转换和模型优化。 - 使用 eval/* 进行基准评估。 - 使用 env/* 设置执行配置文件。 ### 文档 - 关于 Nemotron 步骤是步骤模型的入口点。 - Nemotron 步骤基础定义了步骤、配置、环境配置文件和工件。 - 步骤入门通过一个小示例介绍 CLI 使用。 — ## 训练配方 Nemotron 仓库提供了从原始数据到可部署模型的可重现训练流程。这些实现反映了大型语言模型的实际训练方式：仔细的实验、验证关卡和系统化优化。 ### 为什么需要完整流程？训练生产级模型涉及相互关联的组件。孤立的示例忽略了阶段之间的交互方式。完整流程展示了： - 数据质量如何影响下游性能，贯穿预训练、SFT 和 RL - 哪些训练技术实际上可以协同工作，而不仅仅是理论上 - 验证关卡在哪里防止故障并保持可重现性 - 如何在各个阶段之间平衡竞争目标 由于这些是完整的系统，你可以放心地提取特定技术。每个组件都已在上下文中得到验证。 ### 每个配方包括 - 🎨 合成数据生成 - 使用 NVIDIA-NeMo/DataDesigner (https://github.com/NVIDIA-NeMo/DataDesigner) 生成合成数据集的脚本 - 🗂️ 数据整理 - 使用 NVIDIA NeMo Curator (https://github.com/NVIDIA/NeMo-Curator) 进行可扩展数据处理、过滤和质量增强，以准备训练数据的脚本 - 🔁 训练 - 包含超参数的完整训练循环，使用： - NVIDIA-NeMo/Megatron-Bridge (https://github.com/NVIDIA-NeMo/Megatron-Bridge/tree/main) 用于 Megatron 模型 - NVIDIA-NeMo/Automodel (https://github.com/NVIDIA-NeMo/Automodel) 用于 HuggingFace 模型 - NVIDIA-NeMo/NeMo-RL (https://github.com/NVIDIA-NeMo/RL/tree/main) 当需要 RL 时 - 包括 GPU 加速的最后一步数据处理（分词 + 可选序列打包），以实现最佳训练效率 - 📊 评估 - 使用 NVIDIA NeMo Evaluator (https://github.com/NVIDIA-NeMo/Evaluator) 在标准套件上进行基准评估 - 📖 文档 - 每个阶段的详细说明 ### 可用配方 | 模型 | 描述 | 阶段 | 指南 | |—––|———––|––––|—––| | Nemotron 3 Ultra | 550B 总参数量 / 55B 活跃参数量的混合 Mamba-Attention LatentMoE Transformer，具备 MTP 和 1M 上下文——NVIDIA 最大的 Nemotron 3 模型，用于数据中心级智能体推理 | 预训练 → SFT → RLVR → MOPD | 训练指南 | | Nemotron 3 Super | 120.6B 总参数量 / 12.7B 活跃参数量混合 Mamba Latent MoE Transformer，用于前沿推理、编码和智能体任务 | 预训练 → SFT → RL | 训练指南 | | Nemotron 3 Nano | 31.6B 总参数量 / 3.6B 活跃参数量 MoE 混合 Mamba-Transformer，用于智能体推理 | 预训练 → SFT → RL | 训练指南 | | Nemotron 3 Nano Omni | 30B 总参数量 / 3B 活跃参数量混合 Mamba-Transformer MoE——原生文本、图像、视频和音频，用于智能体多模态感知 | SFT → RL (MPO / 文本 / 视觉) → 评估 | 训练指南 | ### Nemotron 3 Ultra NVIDIA 最大 Nemotron 3 模型的训练配方——一个 550B-A55B 混合 Mamba-Attention 专家混合 Transformer，具有 LatentMoE 和多令牌预测 (MTP)，以 NVFP4 预训练并扩展至 1M 令牌上下文，用于数据中心级智能体推理。 > 仅限开源数据：这些配方仅使用训练数据的开源子集进行训练。结果将与技术报告基准不同，后者使用了额外的专有数据。将这些配方作为参考实现，使用你自己的数据应用该方法。 模型规格： - 550B 总参数量 / 55B 活跃参数量 (MoE) - 混合 Mamba-Attention 架构，包含 LatentMoE + 两个共享权重的 MTP 层 - 20T 预训练令牌 (NVFP4)，两阶段数据课程 - 最大 1M (1,048,576) 上下文长度 - 完整流程：预训练 → SFT → RLVR → MOPD → MTP 提升（本配方涵盖预训练 → SFT） 你可以提取的内容： - 在开放 Nemotron 数据集上的两阶段预训练数据混合（技术报告图 4） - 基于 Ray 的数据准备：标记化原始数据集 → Megatron bin/idx (预训练) 和打包聊天数据 → Parquet (SFT) - 新的开放预训练数据集：Specialized-v1.2（多选题 / 生成式 / 事实查询 / 道德场景）和 Legal-v1 - 针对预训练和 SFT 的阶段级容器构建 (Day-0 Megatron-Bridge) - 超大规模 Megatron-Bridge 训练（预训练 TP=2 / PP=12 / EP=32，SFT PP=6）资源： - 训练指南 - 使用指南 - 模型权重 (BF16) (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16) ### Nemotron 3 Super 前沿混合 Mamba Latent 专家混合 Transformer 模型的完整训练配方，具有最先进的推理、编码和智能体能力。 > 仅限开源数据：这些配方仅使用训练数据的开源子集进行训练。结果将与技术报告基准不同，后者使用了额外的专有数据。将这些配方作为参考实现，使用你自己的数据应用该方法。 模型规格： - 120B 总参数量 / 12B 活跃参数量 - 多阶段 RL 流程：3× RLVR + 2× SWE-RL + RLHF，涵盖 21 个奖励环境 - 异步 GRPO，训练与推理解耦 你可以提取的内容： - 具有数据课程的大规模预训练 - 多领域 SFT 流程 - 多环境 RLVR，包含 21 个同时进行的奖励环境 - 具有容器隔离沙箱执行的 SWE-RL - 基于 GenRM 的 RLHF，具有原则遵循奖励 - 在 1K GPU 规模下的异步 GRPO 资源： - 训练指南 - 技术报告 (https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf) - 模型权重 (Instruct) (https://huggingface.co/nvidia/Nemotron-3-Super-49B-v1) ### Nemotron 3 Nano 开放、高效的专家混合混合 Mamba-Transformer 模型的完整训练配方，针对智能体推理优化。 > 仅限开源数据：这些配方仅使用训练数据的开源子集进行训练。结果将与技术报告基准不同，后者使用了额外的专有数据。将这些配方作为参考实现，使用你自己的数据应用该方法。 模型规格： - 31.6B 总参数量，每次前向传播 3.6B 活跃参数量 - 25 万亿预训练令牌，采用课程学习 - 最大 1M 上下文长度 - 推理吞吐量比类似规模模型高 3.3 倍 你可以提取的内容： - 基于课程的预训练，包含两阶段数据混合 - 通过 CPT 方法进行长上下文扩展 - 多领域 SFT，包含 12+ 个数据源 - InfinityByte 跨领域代码合成 - 工具调用微调和预算控制推理 - 多环境 RLVR，使用 GRPO - GenRM 奖励建模，采用循环对比 - DPO 用于减少工具幻觉资源： - 训练指南 - 技术报告 (https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Nano-Technical-Report.pdf) - 模型权重 (Base) (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16) - 模型权重 (Instruct) (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16) - 模型权重 (FP8) (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8) ### Nemotron 3 Nano Omni 30B-A3B 混合 Mamba-Transformer 专家混合模型的多模态训练配方。在单个解码器中原生支持文本、图像、视频和音频，设计为智能体 AI 的感知子智能体。 Nemotron 3 Nano Omni 混合 MoE 架构：每种模态（音频通过 Parakeet，视觉通过 C-RADIOv4-H + 3D 卷积 + 高效视频采样，文本通过分词器）都有自己的编码器和适配器；所有流汇聚到统一的 30B-A3B LLM 解码器 > 仅限开源数据：这些配方仅使用训练数据的开源子集进行训练（例如，用于 SFT 的 CORD-v2，用于 RL 的公开 MMPR / MMPR-Tiny）。结果将与发布基准不同，后者使用了额外的内部数据集。将这些配方作为参考实现，使用你自己的数据应用该方法。 模型规格： - 30B 总参数量 / 3B 活跃参数量 (A3B MoE) - 混合架构：Mamba 层（序列/内存效率）+ Transformer 层（推理），具有统一的文本解码器 - 原生模态：文本、图像、视频、音频 - 视觉编码器：C-RADIOv4-H · 音频编码器：NVIDIA Parakeet · 视频流程：3D 卷积 + 高效视频采样 (EVS) - 上下文长度：逐步扩展 16K → 49K → 262K - 在 MMlongbench-Doc、OCRBenchV2 上同类最佳；在 WorldSense、DailyOmni、VoiceBench 上领先 - 与类似开放全模态模型相比，视频推理系统容量高达约 9.2 倍，多文档工作负载高达约 7.4 倍 - 许可证：NVIDIA Nemotron 开放模型许可证（企业友好，支持本地和任何部署） 你可以提取的内容： - 多

相似文章

"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"

Reddit r/LocalLLaMA

NVIDIA发布了Nemotron 3开放模型，提供了Nano、Super、Ultra三种尺寸，通过混合Mamba Transformer、潜在MoE和多token预测等架构创新优化硬件效率，并采用Open MDW 1.1开放许可协议。

@cwolferesearch: 开放技术报告/成果非常有价值。我目前正在阅读所有Nemotron的技术报告，它们…

X AI KOLs Timeline

NVIDIA推出了Llama-Nemotron，这是一个开放的推理模型系列（Nano 8B、Super 49B、Ultra 253B），它们与DeepSeek-R1竞争，具有卓越的推理效率、动态推理切换和开放的后训练数据集。

Nvidia的Nemotron系列是最开源的一系列模型。我发现：- 基准测试要求 - 所有GitHub仓库 - 所有数据 - 权重而且它们表现很好，实际上非常独特。他们发布NVFP4基准测试，结果仅差1% https://t.co/dQ2PwarUfO

X AI KOLs Following

Nvidia的Nemotron系列AI模型完全开源，包含基准测试、GitHub仓库、数据和权重，性能上与NVFP4基准测试仅差1%。

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

NVIDIA Blog

NVIDIA 宣布推出 Nemotron 3 Nano Omni，这是一款开放的多模态模型，通过统一视觉、音频和语言处理，使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比，其吞吐量最高可提高 9 倍。

NVIDIA Nemotron 3 Ultra 已发布。