NVIDIA 发布 Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

Hugging Face Blog 2026/04/28 15:58 模型

multimodal nvidia long-context omni-modal moe open-source

摘要

NVIDIA 发布 Nemotron 3 Nano Omni，这是一款新型长上下文多模态 AI 模型，能够以高准确性和高效率处理文档、音频、视频和文本。

暂无内容

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:00

NVIDIA Nemotron 3 Nano Omni 发布：面向文档、音频和视频智能体的长上下文多模态智能

来源：https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence 返回文章列表 (https://huggingface.co/blog)

NVIDIA Nemotron 3 Nano Omni 是一款全新的全模态理解模型，专为真实场景文档分析、多图像推理、自动语音识别、长音频-视频理解、智能体计算机操作和通用推理而构建。
它将 Nemotron 多模态系列从强大的视觉-语言系统扩展为更广泛的文本 + 图像 + 视频 + 音频模型。
Nemotron 3 Nano Omni 在复杂文档智能基准测试中实现了同类最佳精度，如 MMlongbench-Doc (https://huggingface.co/spaces/OpenIXCLab/mmlongbench-doc)、OCRBenchV2 (https://99franklin.github.io/ocrbench_v2/)，同时在视频和音频基准测试中处于领先地位，如 WorldSense (https://jaaackhongggg.github.io/WorldSense/#leaderboard) 和 DailyOmni (https://lliar-liar.github.io/Daily-Omni/#leaderboard)。它在 VoiceBench (https://matthewcym.github.io/VoiceBench/) 上实现了音频理解的最佳精度，并在 MediaPerf (https://mediaperf.org/leaderboard) 上被评为最具成本效益的开放视频理解模型。
在底层，它结合了 Nemotron 3 混合 Mamba-Transformer 混合专家骨干网络、C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器。
该架构旨在保留精细视觉细节，添加原生音频理解能力，并扩展到非常长的多模态上下文，用于密集图像、文档、视频和混合模态推理。
训练方案采用分阶段多模态对齐和上下文扩展，随后进行偏好优化和多模态强化学习。
在多模态用例中，Nemotron 3 Nano Omni 的吞吐量比替代方案高出 9 倍，单流推理速度提升 2.9 倍。
在 HuggingFace 下载 BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)、FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8) 和 NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4) 检查点。
有关模型架构、训练方案、数据流水线和基准测试的更多信息，请阅读完整的 Nemotron 3 Nano Omni 报告 (https://arxiv.org/abs/2604.24954)。
Nemotron 3 Nano Omni 的设计目标 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#what-nemotron-3-nano-omni-is-designed-for)
- 1. 真实场景文档分析 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#1-real-world-document-analysis)
- 1. 自动语音识别 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#2-automatic-speech-recognition)
- 1. 长音频-视频理解 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#3-long-audio-video-understanding)
- 1. 智能体计算机操作 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#4-agentic-computer-use)
- 1. 通用多模态推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#5-general-multimodal-reasoning)
模型架构与关键创新 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#model-architecture-and-key-innovations)
- 用于长多模态上下文的混合 Mamba-Transformer-MoE 骨干网络 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#a-hybrid-mamba-transformer-moe-backbone-for-long-multimodal-context)
- 面向密集文档、图表和屏幕的动态分辨率 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#dynamic-resolution-for-dense-documents-charts-and-screens)
- 用于视频的 Conv3D 时序压缩 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#conv3d-temporal-compression-for-video)
- EVS — 高效视频采样 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#evs–efficient-video-sampling)
- 原生音频输入，而非仅文本转录 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#native-audio-input-not-just-text-transcripts)
- 轻量级模态投影器和统一令牌交错 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#lightweight-modality-projectors-and-unified-token-interleaving)
训练数据、基础设施与系统故事 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#training-data-infrastructure-and-systems-story)
- 使用 RL 塑造可靠的多模态行为 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#using-rl-to-shape-reliable-multimodal-behavior)
- 数据与数据流水线 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#data-and-data-pipelines)
示例工作流 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-workflows)
- 示例 1：长多页文档分析 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-1-long-multi-page-document-analysis)
- 示例 2：视频 + 音频理解 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-2-video–audio-understanding)
- 示例 3：智能体计算机操作 / 截图推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-3-agentic-computer-use–screenshot-reasoning)
- 示例 4：混合文档 + 图表 + 叙述推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-4-mixed-document–chart–narration-reasoning)
- 示例 5：声景 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-5-soundscape)
- 示例 6：音乐 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-6-music)
Nemotron 3 Nano Omni 入门指南 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#getting-started-with-nemotron-3-nano-omni)
参考资料 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#references)

基准测试亮点 基于 Nemotron Nano V2 VL，Nemotron 3 Nano Omni 在视觉能力上实现了显著提升，并新增了完整的音频和视频+音频能力——同时在多个领域领先于另一款开放权重全模态模型 Qwen3-Omni。

任务	基准测试	Nemotron 3 Nano Omni	Nemotron Nano V2 VL	Qwen3-Omni 30B-A3B
文档理解	OCRBenchV2-En	65.8	61.2	-
	MMLongBench-Doc	57.5	38.0	49.5
	CharXiv reasoning	63.6	41.3	61.1
	GUIScreenSpot-Pro	57.8	5.5	59.7
	OSWorld	47.4	11.0	29.0
视频理解	Video-MME	72.2	63.0	70.5
视频 + 音频理解	WorldSense	55.4	-	54.0
	DailyOmni	74.1	-	73.6
语音交互	VoiceBench	89.4	-	88.8
ASR	HF Open ASR（越低越好）	5.95	-	6.55

效率亮点 与具有相同交互性的其他开放全模态模型相比，Nemotron 3 Nano Omni 在多文档用例中实现了 7.4 倍的系统效率提升，在视频用例中实现了 9.2 倍的系统效率提升。

效率图表 图 1. 在固定的每用户交互性阈值（tokens/sec/user）下，各模型在多文档和视频用例中保持的总系统吞吐量

Nemotron 3 Nano Omni 的设计目标

总体而言，Nemotron 3 Nano Omni 面向五类工作负载：

1. 真实场景文档分析

这不仅仅是 OCR。该模型定位于长篇、复杂、高价值的文档，其理解依赖于布局、表格、图表、公式、章节结构和跨页引用。例如合同、技术论文、报告、手册、多页表格或合规文件包。该模型可处理 100 页以上的文档。

2. 自动语音识别

Nemotron 3 Nano Omni 包含强大的语音理解能力，可在多样化的音频条件下实现高质量转录。它能处理包含不同说话人、口音和背景噪音的长音频。这些能力可集成到更广泛的工作流中，使口语内容能够被转录、分析，并与其他模态结合，用于摘要、问答和跨模态推理等任务。

3. 长音频-视频理解

许多企业和开发者工作流依赖于混合音频和视觉证据：带解说的屏幕录制、培训视频、带幻灯片的会议、教程、产品演示、客户支持记录和长视频档案。Nemotron 3 Nano Omni 专为联合推理这些输入而构建。

4. 智能体计算机操作

Nemotron 3 Nano Omni 模型专门针对智能体计算机操作进行训练，使其能够在图形用户界面（GUI）环境中协助完成任务。其能力包括解读屏幕截图、监控用户界面状态、基于屏幕视觉进行推理，以及协助动作选择或工作流自动化。

5. 通用多模态推理

该模型的设计不止于感知。它擅长需要综合长上下文窗口、多种模态以及结构化或半结构化证据的推理密集型任务。它能执行多步推理、进行计算，并将文本、图像、表格和其他输入的信号连接起来，以得出连贯、有充分依据的答案。

模型架构与关键创新

Nemotron 3 Nano Omni 采用统一的编码器-投影器-解码器设计。语言骨干网络为 Nemotron 3 Nano 30B-A3B，搭配 C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器。特定模态的编码器通过轻量级投影器连接到 LLM 骨干网络。

图 2. NVIDIA Nemotron 3 Nano Omni 30B-A3B 模型架构

用于长多模态上下文的混合 Mamba-Transformer-MoE 骨干网络

模型骨干网络交错三种关键组件：23 层 Mamba 选择性状态空间层，用于高效的长上下文处理；23 层 MoE 层，配备 128 名专家、top-6 路由和共享专家，提供条件容量；以及 6 层分组查询注意力层，保持强大的全局交互和表达能力。

Nemotron 3 Nano Omni 将状态空间模型、注意力和 MoE 结合在统一设计中，在保持强大推理性能的同时，适用于长多模态上下文。

面向密集文档、图表和屏幕的动态分辨率

在视觉方面，Nemotron 3 Nano Omni 用原生宽高比动态分辨率处理取代了 v2 模型中使用的分块策略。每张图像可使用可变数量的 16×16 块表示，每图最少 1,024 到最多 13,312 个视觉块。对于方形图像，这分别相当于 512×512 和 1840×1840。

这种灵活性对于处理高分辨率、复杂的视觉输入至关重要，如 OCR 密集型文档、财务表格、幻灯片、研究图表、屏幕截图和 GUI 布局——尤其是当精细细节和整体结构都需要被同时理解时。

用于视频的 Conv3D 时序压缩

对于视频，Nemotron 3 Nano Omni 使用专用的 Conv3D tubelet 嵌入路径。不是独立嵌入每一帧，而是将每对连续帧在 ViT 之前融合为单个 “tubelet”，使语言模型需要关注的视觉令牌数量减半。这使我们在相同令牌预算下可以处理双倍帧数，或在相同帧数下将令牌数量减半。

EVS — 高效视频采样

EVS 是一个重要的推理时特性，在视觉编码器后丢弃冗余视频令牌。这在保持精度的同时降低延迟、提高吞吐量。视频的第一帧完整保留，对于后续每一帧，EVS 保留视频变化的“动态“令牌，丢弃与前一帧相比无变化的“静态“令牌。我们将其与 Conv3D 结合以实现更优压缩：Conv3D 将帧对的令牌融合为一个，然后 EVS 剪除冗余静态信息。

原生音频输入，而非仅文本转录

音频方面由 Parakeet-TDT-0.6B-v2 驱动，通过其专用的 2 层 MLP 投影器连接到骨干网络。音频采样率为 16 kHz，模型训练输入最长可达 1,200 秒（20 分钟），而 LLM 最大上下文长度支持 5 小时以上。

这代表了从传统 VLM 流水线的转变，通过在共享多模态序列中实现原生音频处理，使音频、视觉和文本令牌能够被联合建模。这对于解说屏幕录制、语音改变视觉含义的视频问答、长篇幅教学或会议内容，以及需要时序定位的多模态推理等场景至关重要。

轻量级模态投影器和统一令牌交错

每个编码器通过轻量级 2 层 MLP 投影器连接到 LLM，将编码器特征映射到共享嵌入空间。投影后，视觉、音频和文本令牌被交错并联合处理。

这种设计使整体系统保持模块化，同时仍在骨干网络内部实现真正的跨模态推理。

训练数据、基础设施与系统故事

SFT 阶段在 NVIDIA H100 上训练，根据阶段不同从 32 扩展到 128 个节点。技术栈使用 Megatron-LM、Transformer Engine

NVIDIA 发布 Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

NVIDIA Nemotron 3 Nano Omni 发布：面向文档、音频和视频智能体的长上下文多模态智能

Nemotron 3 Nano Omni 的设计目标

1. 真实场景文档分析

2. 自动语音识别

3. 长音频-视频理解

4. 智能体计算机操作

5. 通用多模态推理

模型架构与关键创新

用于长多模态上下文的混合 Mamba-Transformer-MoE 骨干网络

面向密集文档、图表和屏幕的动态分辨率

用于视频的 Conv3D 时序压缩

EVS — 高效视频采样

原生音频输入，而非仅文本转录

轻量级模态投影器和统一令牌交错

训练数据、基础设施与系统故事

相似文章

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

使用合成数据构建快速多语言OCR模型

推出 Nano Banana Pro

OpenAI的新语音模型不止于回话

提交意见反馈