NVIDIA 发布 Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态智能

Hugging Face Blog 模型

摘要

NVIDIA 发布 Nemotron 3 Nano Omni,这是一款新型长上下文多模态 AI 模型,能够以高准确性和高效率处理文档、音频、视频和文本。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 09:00

NVIDIA Nemotron 3 Nano Omni 发布:面向文档、音频和视频智能体的长上下文多模态智能

来源:https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence 返回文章列表 (https://huggingface.co/blog)

  • NVIDIA Nemotron 3 Nano Omni 是一款全新的全模态理解模型,专为真实场景文档分析、多图像推理、自动语音识别、长音频-视频理解、智能体计算机操作和通用推理而构建。

  • 它将 Nemotron 多模态系列从强大的视觉-语言系统扩展为更广泛的文本 + 图像 + 视频 + 音频模型。

  • Nemotron 3 Nano Omni 在复杂文档智能基准测试中实现了同类最佳精度,如 MMlongbench-Doc (https://huggingface.co/spaces/OpenIXCLab/mmlongbench-doc)、OCRBenchV2 (https://99franklin.github.io/ocrbench_v2/),同时在视频和音频基准测试中处于领先地位,如 WorldSense (https://jaaackhongggg.github.io/WorldSense/#leaderboard) 和 DailyOmni (https://lliar-liar.github.io/Daily-Omni/#leaderboard)。它在 VoiceBench (https://matthewcym.github.io/VoiceBench/) 上实现了音频理解的最佳精度,并在 MediaPerf (https://mediaperf.org/leaderboard) 上被评为最具成本效益的开放视频理解模型。

  • 在底层,它结合了 Nemotron 3 混合 Mamba-Transformer 混合专家骨干网络C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器。

  • 该架构旨在保留精细视觉细节,添加原生音频理解能力,并扩展到非常长的多模态上下文,用于密集图像、文档、视频和混合模态推理。

  • 训练方案采用分阶段多模态对齐和上下文扩展,随后进行偏好优化和多模态强化学习

  • 在多模态用例中,Nemotron 3 Nano Omni 的吞吐量比替代方案高出 9 倍,单流推理速度提升 2.9 倍。

  • 在 HuggingFace 下载 BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)、FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8) 和 NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4) 检查点。

  • 有关模型架构、训练方案、数据流水线和基准测试的更多信息,请阅读完整的 Nemotron 3 Nano Omni 报告 (https://arxiv.org/abs/2604.24954)。

  • Nemotron 3 Nano Omni 的设计目标 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#what-nemotron-3-nano-omni-is-designed-for)

      1. 真实场景文档分析 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#1-real-world-document-analysis)
      1. 自动语音识别 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#2-automatic-speech-recognition)
      1. 长音频-视频理解 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#3-long-audio-video-understanding)
      1. 智能体计算机操作 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#4-agentic-computer-use)
      1. 通用多模态推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#5-general-multimodal-reasoning)
  • 模型架构与关键创新 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#model-architecture-and-key-innovations)

    • 用于长多模态上下文的混合 Mamba-Transformer-MoE 骨干网络 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#a-hybrid-mamba-transformer-moe-backbone-for-long-multimodal-context)
    • 面向密集文档、图表和屏幕的动态分辨率 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#dynamic-resolution-for-dense-documents-charts-and-screens)
    • 用于视频的 Conv3D 时序压缩 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#conv3d-temporal-compression-for-video)
    • EVS — 高效视频采样 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#evs–efficient-video-sampling)
    • 原生音频输入,而非仅文本转录 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#native-audio-input-not-just-text-transcripts)
    • 轻量级模态投影器和统一令牌交错 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#lightweight-modality-projectors-and-unified-token-interleaving)
  • 训练数据、基础设施与系统故事 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#training-data-infrastructure-and-systems-story)

    • 使用 RL 塑造可靠的多模态行为 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#using-rl-to-shape-reliable-multimodal-behavior)
    • 数据与数据流水线 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#data-and-data-pipelines)
  • 示例工作流 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-workflows)

    • 示例 1:长多页文档分析 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-1-long-multi-page-document-analysis)
    • 示例 2:视频 + 音频理解 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-2-video–audio-understanding)
    • 示例 3:智能体计算机操作 / 截图推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-3-agentic-computer-use–screenshot-reasoning)
    • 示例 4:混合文档 + 图表 + 叙述推理 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-4-mixed-document–chart–narration-reasoning)
    • 示例 5:声景 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-5-soundscape)
    • 示例 6:音乐 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#example-6-music)
  • Nemotron 3 Nano Omni 入门指南 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#getting-started-with-nemotron-3-nano-omni)

  • 参考资料 (https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-intelligence#references)

基准测试亮点 基于 Nemotron Nano V2 VL,Nemotron 3 Nano Omni 在视觉能力上实现了显著提升,并新增了完整的音频和视频+音频能力——同时在多个领域领先于另一款开放权重全模态模型 Qwen3-Omni。

任务基准测试Nemotron 3 Nano OmniNemotron Nano V2 VLQwen3-Omni 30B-A3B
文档理解OCRBenchV2-En65.861.2-
MMLongBench-Doc57.538.049.5
CharXiv reasoning63.641.361.1
GUIScreenSpot-Pro57.85.559.7
OSWorld47.411.029.0
视频理解Video-MME72.263.070.5
视频 + 音频理解WorldSense55.4-54.0
DailyOmni74.1-73.6
语音交互VoiceBench89.4-88.8
ASRHF Open ASR(越低越好)5.95-6.55

效率亮点 与具有相同交互性的其他开放全模态模型相比,Nemotron 3 Nano Omni 在多文档用例中实现了 7.4 倍的系统效率提升,在视频用例中实现了 9.2 倍的系统效率提升。

效率图表 图 1. 在固定的每用户交互性阈值(tokens/sec/user)下,各模型在多文档和视频用例中保持的总系统吞吐量

Nemotron 3 Nano Omni 的设计目标

总体而言,Nemotron 3 Nano Omni 面向五类工作负载:

1. 真实场景文档分析

这不仅仅是 OCR。该模型定位于长篇、复杂、高价值的文档,其理解依赖于布局、表格、图表、公式、章节结构和跨页引用。例如合同、技术论文、报告、手册、多页表格或合规文件包。该模型可处理 100 页以上的文档。

2. 自动语音识别

Nemotron 3 Nano Omni 包含强大的语音理解能力,可在多样化的音频条件下实现高质量转录。它能处理包含不同说话人、口音和背景噪音的长音频。这些能力可集成到更广泛的工作流中,使口语内容能够被转录、分析,并与其他模态结合,用于摘要、问答和跨模态推理等任务。

3. 长音频-视频理解

许多企业和开发者工作流依赖于混合音频和视觉证据:带解说的屏幕录制、培训视频、带幻灯片的会议、教程、产品演示、客户支持记录和长视频档案。Nemotron 3 Nano Omni 专为联合推理这些输入而构建。

4. 智能体计算机操作

Nemotron 3 Nano Omni 模型专门针对智能体计算机操作进行训练,使其能够在图形用户界面(GUI)环境中协助完成任务。其能力包括解读屏幕截图、监控用户界面状态、基于屏幕视觉进行推理,以及协助动作选择或工作流自动化。

5. 通用多模态推理

该模型的设计不止于感知。它擅长需要综合长上下文窗口、多种模态以及结构化或半结构化证据的推理密集型任务。它能执行多步推理、进行计算,并将文本、图像、表格和其他输入的信号连接起来,以得出连贯、有充分依据的答案。

模型架构与关键创新

Nemotron 3 Nano Omni 采用统一的编码器-投影器-解码器设计。语言骨干网络为 Nemotron 3 Nano 30B-A3B,搭配 C-RADIOv4-H 视觉编码器和 Parakeet-TDT-0.6B-v2 音频编码器。特定模态的编码器通过轻量级投影器连接到 LLM 骨干网络。

图 2. NVIDIA Nemotron 3 Nano Omni 30B-A3B 模型架构

用于长多模态上下文的混合 Mamba-Transformer-MoE 骨干网络

模型骨干网络交错三种关键组件:23 层 Mamba 选择性状态空间层,用于高效的长上下文处理;23 层 MoE 层,配备 128 名专家、top-6 路由共享专家,提供条件容量;以及 6 层分组查询注意力层,保持强大的全局交互和表达能力。

Nemotron 3 Nano Omni 将状态空间模型、注意力和 MoE 结合在统一设计中,在保持强大推理性能的同时,适用于长多模态上下文。

面向密集文档、图表和屏幕的动态分辨率

在视觉方面,Nemotron 3 Nano Omni 用原生宽高比动态分辨率处理取代了 v2 模型中使用的分块策略。每张图像可使用可变数量的 16×16 块表示,每图最少 1,024 到最多 13,312 个视觉块。对于方形图像,这分别相当于 512×512 和 1840×1840。

这种灵活性对于处理高分辨率、复杂的视觉输入至关重要,如 OCR 密集型文档、财务表格、幻灯片、研究图表、屏幕截图和 GUI 布局——尤其是当精细细节和整体结构都需要被同时理解时。

用于视频的 Conv3D 时序压缩

对于视频,Nemotron 3 Nano Omni 使用专用的 Conv3D tubelet 嵌入路径。不是独立嵌入每一帧,而是将每对连续帧在 ViT 之前融合为单个 “tubelet”,使语言模型需要关注的视觉令牌数量减半。这使我们在相同令牌预算下可以处理双倍帧数,或在相同帧数下将令牌数量减半。

EVS — 高效视频采样

EVS 是一个重要的推理时特性,在视觉编码器后丢弃冗余视频令牌。这在保持精度的同时降低延迟、提高吞吐量。视频的第一帧完整保留,对于后续每一帧,EVS 保留视频变化的“动态“令牌,丢弃与前一帧相比无变化的“静态“令牌。我们将其与 Conv3D 结合以实现更优压缩:Conv3D 将帧对的令牌融合为一个,然后 EVS 剪除冗余静态信息。

原生音频输入,而非仅文本转录

音频方面由 Parakeet-TDT-0.6B-v2 驱动,通过其专用的 2 层 MLP 投影器连接到骨干网络。音频采样率为 16 kHz,模型训练输入最长可达 1,200 秒(20 分钟),而 LLM 最大上下文长度支持 5 小时以上。

这代表了从传统 VLM 流水线的转变,通过在共享多模态序列中实现原生音频处理,使音频、视觉和文本令牌能够被联合建模。这对于解说屏幕录制、语音改变视觉含义的视频问答、长篇幅教学或会议内容,以及需要时序定位的多模态推理等场景至关重要。

轻量级模态投影器和统一令牌交错

每个编码器通过轻量级 2 层 MLP 投影器连接到 LLM,将编码器特征映射到共享嵌入空间。投影后,视觉、音频和文本令牌被交错并联合处理

这种设计使整体系统保持模块化,同时仍在骨干网络内部实现真正的跨模态推理。

训练数据、基础设施与系统故事

SFT 阶段在 NVIDIA H100 上训练,根据阶段不同从 32 扩展到 128 个节点。技术栈使用 Megatron-LMTransformer Engine

相似文章

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

Hugging Face Models Trending

NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。

使用合成数据构建快速多语言OCR模型

Hugging Face Blog

NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。

推出 Nano Banana Pro

Google DeepMind Blog

Google DeepMind 推出 Nano Banana Pro,这是一款基于 Gemini 3 Pro 打造的全新顶尖图像生成与编辑模型。该模型具备更出色的文本渲染能力、增强的世界知识整合能力以及高保真视觉能力,可在 Google 各产品中体验。

OpenAI的新语音模型不止于回话

Reddit r/ArtificialInteligence

OpenAI推出了三个新的实时音频模型,支持连续、多任务的语音交互,优先考虑长上下文推理、实时翻译和无缝工具使用。