NVIDIA 发布 Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态智能
摘要
NVIDIA 发布 Nemotron 3 Nano Omni,这是一款新型长上下文多模态 AI 模型,能够以高准确性和高效率处理文档、音频、视频和文本。
查看缓存全文
缓存时间: 2026/05/08 09:00
NVIDIA Nemotron 3 Nano Omni 发布:面向文档、音频和视频智能体的长上下文多模态智能
来源:https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence 返回文章列表 (https://huggingface.co/blog)
-
NVIDIA Nemotron 3 Nano Omni 是一款全新的全模态理解模型,专为真实场景文档分析、多图像推理、自动语音识别、长音频-视频理解、智能体计算机操作和通用推理而构建。
-
它将 Nemotron 多模态系列从强大的视觉-语言系统扩展为更广泛的文本 + 图像 + 视频 + 音频模型。
-
Nemotron 3 Nano Omni 在复杂文档智能基准测试中实现了同类最佳精度,如 MMlongbench-Doc (https://huggingface.co/spaces/OpenIXCLab/mmlongbench-doc)、OCRBenchV2 (https://99franklin.github.io/ocrbench_v2/),同时在视频和音频基准测试中处于领先地位,如 WorldSense (https://jaaackhongggg.github.io/WorldSense/#leaderboard) 和 DailyOmni (https://lliar-liar.github.io/Daily-Omni/#leaderboard)。它在 VoiceBench (https://matthewcym.github.io/VoiceBench/) 上实现了音频理解的最佳精度,并在 MediaPerf (https://mediaperf.org/leaderboard) 上被评为最具成本效益的开放视频理解模型。
-
在底层,它结合了 Nemotron 3 混合 Mamba-Transformer 混合专家骨干网络、C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器。
-
该架构旨在保留精细视觉细节,添加原生音频理解能力,并扩展到非常长的多模态上下文,用于密集图像、文档、视频和混合模态推理。
-
训练方案采用分阶段多模态对齐和上下文扩展,随后进行偏好优化和多模态强化学习。
-
在多模态用例中,Nemotron 3 Nano Omni 的吞吐量比替代方案高出 9 倍,单流推理速度提升 2.9 倍。
-
在 HuggingFace 下载 BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)、FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8) 和 NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4) 检查点。
-
有关模型架构、训练方案、数据流水线和基准测试的更多信息,请阅读完整的 Nemotron 3 Nano Omni 报告 (https://arxiv.org/abs/2604.24954)。
-
Nemotron 3 Nano Omni 的设计目标 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#what-nemotron-3-nano-omni-is-designed-for)
-
- 真实场景文档分析 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#1-real-world-document-analysis)
-
- 自动语音识别 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#2-automatic-speech-recognition)
-
- 长音频-视频理解 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#3-long-audio-video-understanding)
-
- 智能体计算机操作 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#4-agentic-computer-use)
-
- 通用多模态推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#5-general-multimodal-reasoning)
-
-
模型架构与关键创新 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#model-architecture-and-key-innovations)
- 用于长多模态上下文的混合 Mamba-Transformer-MoE 骨干网络 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#a-hybrid-mamba-transformer-moe-backbone-for-long-multimodal-context)
- 面向密集文档、图表和屏幕的动态分辨率 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#dynamic-resolution-for-dense-documents-charts-and-screens)
- 用于视频的 Conv3D 时序压缩 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#conv3d-temporal-compression-for-video)
- EVS — 高效视频采样 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#evs–efficient-video-sampling)
- 原生音频输入,而非仅文本转录 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#native-audio-input-not-just-text-transcripts)
- 轻量级模态投影器和统一令牌交错 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#lightweight-modality-projectors-and-unified-token-interleaving)
-
训练数据、基础设施与系统故事 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#training-data-infrastructure-and-systems-story)
- 使用 RL 塑造可靠的多模态行为 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#using-rl-to-shape-reliable-multimodal-behavior)
- 数据与数据流水线 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#data-and-data-pipelines)
-
示例工作流 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-workflows)
- 示例 1:长多页文档分析 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-1-long-multi-page-document-analysis)
- 示例 2:视频 + 音频理解 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-2-video–audio-understanding)
- 示例 3:智能体计算机操作 / 截图推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-3-agentic-computer-use–screenshot-reasoning)
- 示例 4:混合文档 + 图表 + 叙述推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-4-mixed-document–chart–narration-reasoning)
- 示例 5:声景 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-5-soundscape)
- 示例 6:音乐 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-6-music)
-
Nemotron 3 Nano Omni 入门指南 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#getting-started-with-nemotron-3-nano-omni)
-
参考资料 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#references)
基准测试亮点 基于 Nemotron Nano V2 VL,Nemotron 3 Nano Omni 在视觉能力上实现了显著提升,并新增了完整的音频和视频+音频能力——同时在多个领域领先于另一款开放权重全模态模型 Qwen3-Omni。
| 任务 | 基准测试 | Nemotron 3 Nano Omni | Nemotron Nano V2 VL | Qwen3-Omni 30B-A3B |
|---|---|---|---|---|
| 文档理解 | OCRBenchV2-En | 65.8 | 61.2 | - |
| MMLongBench-Doc | 57.5 | 38.0 | 49.5 | |
| CharXiv reasoning | 63.6 | 41.3 | 61.1 | |
| GUIScreenSpot-Pro | 57.8 | 5.5 | 59.7 | |
| OSWorld | 47.4 | 11.0 | 29.0 | |
| 视频理解 | Video-MME | 72.2 | 63.0 | 70.5 |
| 视频 + 音频理解 | WorldSense | 55.4 | - | 54.0 |
| DailyOmni | 74.1 | - | 73.6 | |
| 语音交互 | VoiceBench | 89.4 | - | 88.8 |
| ASR | HF Open ASR(越低越好) | 5.95 | - | 6.55 |
效率亮点 与具有相同交互性的其他开放全模态模型相比,Nemotron 3 Nano Omni 在多文档用例中实现了 7.4 倍的系统效率提升,在视频用例中实现了 9.2 倍的系统效率提升。
图 1. 在固定的每用户交互性阈值(tokens/sec/user)下,各模型在多文档和视频用例中保持的总系统吞吐量
Nemotron 3 Nano Omni 的设计目标
总体而言,Nemotron 3 Nano Omni 面向五类工作负载:
1. 真实场景文档分析
这不仅仅是 OCR。该模型定位于长篇、复杂、高价值的文档,其理解依赖于布局、表格、图表、公式、章节结构和跨页引用。例如合同、技术论文、报告、手册、多页表格或合规文件包。该模型可处理 100 页以上的文档。
2. 自动语音识别
Nemotron 3 Nano Omni 包含强大的语音理解能力,可在多样化的音频条件下实现高质量转录。它能处理包含不同说话人、口音和背景噪音的长音频。这些能力可集成到更广泛的工作流中,使口语内容能够被转录、分析,并与其他模态结合,用于摘要、问答和跨模态推理等任务。
3. 长音频-视频理解
许多企业和开发者工作流依赖于混合音频和视觉证据:带解说的屏幕录制、培训视频、带幻灯片的会议、教程、产品演示、客户支持记录和长视频档案。Nemotron 3 Nano Omni 专为联合推理这些输入而构建。
4. 智能体计算机操作
Nemotron 3 Nano Omni 模型专门针对智能体计算机操作进行训练,使其能够在图形用户界面(GUI)环境中协助完成任务。其能力包括解读屏幕截图、监控用户界面状态、基于屏幕视觉进行推理,以及协助动作选择或工作流自动化。
5. 通用多模态推理
该模型的设计不止于感知。它擅长需要综合长上下文窗口、多种模态以及结构化或半结构化证据的推理密集型任务。它能执行多步推理、进行计算,并将文本、图像、表格和其他输入的信号连接起来,以得出连贯、有充分依据的答案。
模型架构与关键创新
Nemotron 3 Nano Omni 采用统一的编码器-投影器-解码器设计。语言骨干网络为 Nemotron 3 Nano 30B-A3B,搭配 C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器。特定模态的编码器通过轻量级投影器连接到 LLM 骨干网络。

用于长多模态上下文的混合 Mamba-Transformer-MoE 骨干网络
模型骨干网络交错三种关键组件:23 层 Mamba 选择性状态空间层,用于高效的长上下文处理;23 层 MoE 层,配备 128 名专家、top-6 路由和共享专家,提供条件容量;以及 6 层分组查询注意力层,保持强大的全局交互和表达能力。
Nemotron 3 Nano Omni 将状态空间模型、注意力和 MoE 结合在统一设计中,在保持强大推理性能的同时,适用于长多模态上下文。
面向密集文档、图表和屏幕的动态分辨率
在视觉方面,Nemotron 3 Nano Omni 用原生宽高比动态分辨率处理取代了 v2 模型中使用的分块策略。每张图像可使用可变数量的 16×16 块表示,每图最少 1,024 到最多 13,312 个视觉块。对于方形图像,这分别相当于 512×512 和 1840×1840。
这种灵活性对于处理高分辨率、复杂的视觉输入至关重要,如 OCR 密集型文档、财务表格、幻灯片、研究图表、屏幕截图和 GUI 布局——尤其是当精细细节和整体结构都需要被同时理解时。
用于视频的 Conv3D 时序压缩
对于视频,Nemotron 3 Nano Omni 使用专用的 Conv3D tubelet 嵌入路径。不是独立嵌入每一帧,而是将每对连续帧在 ViT 之前融合为单个 “tubelet”,使语言模型需要关注的视觉令牌数量减半。这使我们在相同令牌预算下可以处理双倍帧数,或在相同帧数下将令牌数量减半。
EVS — 高效视频采样
EVS 是一个重要的推理时特性,在视觉编码器后丢弃冗余视频令牌。这在保持精度的同时降低延迟、提高吞吐量。视频的第一帧完整保留,对于后续每一帧,EVS 保留视频变化的“动态“令牌,丢弃与前一帧相比无变化的“静态“令牌。我们将其与 Conv3D 结合以实现更优压缩:Conv3D 将帧对的令牌融合为一个,然后 EVS 剪除冗余静态信息。
原生音频输入,而非仅文本转录
音频方面由 Parakeet-TDT-0.6B-v2 驱动,通过其专用的 2 层 MLP 投影器连接到骨干网络。音频采样率为 16 kHz,模型训练输入最长可达 1,200 秒(20 分钟),而 LLM 最大上下文长度支持 5 小时以上。
这代表了从传统 VLM 流水线的转变,通过在共享多模态序列中实现原生音频处理,使音频、视觉和文本令牌能够被联合建模。这对于解说屏幕录制、语音改变视觉含义的视频问答、长篇幅教学或会议内容,以及需要时序定位的多模态推理等场景至关重要。
轻量级模态投影器和统一令牌交错
每个编码器通过轻量级 2 层 MLP 投影器连接到 LLM,将编码器特征映射到共享嵌入空间。投影后,视觉、音频和文本令牌被交错并联合处理。
这种设计使整体系统保持模块化,同时仍在骨干网络内部实现真正的跨模态推理。
训练数据、基础设施与系统故事
SFT 阶段在 NVIDIA H100 上训练,根据阶段不同从 32 扩展到 128 个节点。技术栈使用 Megatron-LM、Transformer Engine
相似文章
NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。
使用合成数据构建快速多语言OCR模型
NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。
推出 Nano Banana Pro
Google DeepMind 推出 Nano Banana Pro,这是一款基于 Gemini 3 Pro 打造的全新顶尖图像生成与编辑模型。该模型具备更出色的文本渲染能力、增强的世界知识整合能力以及高保真视觉能力,可在 Google 各产品中体验。
OpenAI的新语音模型不止于回话
OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。