NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

NVIDIA Blog 2026/04/28 16:00 模型

nvidia nemotron multimodal ai-agents open-model efficiency mixture-of-experts

摘要

NVIDIA 宣布推出 Nemotron 3 Nano Omni，这是一款开放的多模态模型，通过统一视觉、音频和语言处理，使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比，其吞吐量最高可提高 9 倍。

<div id="bsf_rt_marker"></div>当今的 AI Agent 系统往往需要同时调度分别用于视觉、语音和语言的独立模型——在将数据从一个模型传递到另一个模型的过程中，不仅耗费时间，还容易丢失上下文信息。 今天发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放的多模态模型，它将上述能力整合到一个系统中，使 Agent 能够在视频、音频、图像和文本之间进行高级推理，从而提供更快速、更智能的响应。这款业界领先的模型为企业和开发者提供了一条生产路径，用于构建更高效、更精准的多模态 AI Agent，同时提供完整的部署灵活性和控制权。 Nemotron 3 Nano Omni 凭借卓越的准确性和低成本，为开放多模态模型树立了新的效率标杆，在复杂文档智能以及视频和音频理解的<a target="_blank" href="https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model">六大排行榜中均位居榜首</a>。 <aside style="float: right; width: 320px; max-width: 100%; margin: 0.25rem 0 1.25rem 1.75rem; padding: 1.25rem 1.5rem 1.5rem; background: #fafafa; border-top: 3px solid #76b900; font-family: -apple-system,BlinkMacSystemFont,'Segoe UI',Roboto,'Helvetica Neue',Arial,sans-serif; color: #1a1a1a; font-size: 15px; line-height: 1.55; box-sizing: border-box;"> 概览 <div style="padding: 0 0 0.75rem 0;"> 它是什么 一款开放的全模态推理模型——同类中效率最高的开放多模态模型，且准确性领先 </div> <div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;"> 处理能力 文本、图像、音频、视频、文档、图表及图形界面（输入）；文本（输出） </div> <div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;"> 适用对象 正在构建快速可靠的自主系统（Agentic Systems），且需要多模态感知子 Agent 的企业和开发者 </div> <div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;"> 工作原理 在 Agent 系统中充当“眼睛和耳朵”，与 Nemotron 3 Super 和 Ultra 或其他专有模型协同工作 </div> <div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;"> 为何重要 拥有领先的多模态准确性和比其他具有相同交互性的开放 Omni 模型高 9 倍的吞吐量，从而在保持响应速度的同时实现更低的成本和更好的可扩展性。 </div> <div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;"> 架构 30B-A3B 混合 MoE（混合专家模型），采用 Conv3D、EVS 技术，支持 256K 上下文 </div> <div style="padding: 0.75rem 0 0 0; border-top: 1px solid #e5e5e5;"> 可用性 2026 年 4 月 28 日通过 Hugging Face、OpenRouter、build.nvidia.com 及 25 多个合作伙伴平台提供 </div> </aside> 已经采用 Nemotron 3 Nano Omni 的 AI 和软件公司包括 <a target="_blank" href="https://www.aible.com/nemotron3-nano-omni-ai-agent">Aible</a>、<a target="_blank" href="https://appliedscientific.ai/research/scientific-ai-literature-agent-nvidia-nemotron-nano-omni?utm_source=nvidia-blog">Applied Scientific Intelligence (ASI)</a>、<a target="_blank" href="https://info.eka.care/services/how-ekacare-is-building-agentic-multimodal-healthcare-for-india-scale-patient-care-with-nvidia-nemotron-3-nano-omni">Eka Care</a>、富士康 (Foxconn)、<a target="_blank" href="https://hcompany.ai/holotron3">H Company</a>、Palantir 和 <a target="_blank" href="https://pyler.tech/articles/scaling-trustworthy-video-safety-with-nvidia-nemotron-3-nano-omni">Pyler</a>，此外，Dell Technologies、Docusign、Infosys、<a target="_blank" href="https://www.k-dense.ai/blog/nvidia-nemotron-nano-omni-multimodal-agentic-science">K-Dense</a>、Lila、Oracle 和 <a target="_blank" href="https://zefr.com/press/zefr-evaluates-nvidia-nemotron-3-nano-omni-to-power-cognition-ai">Zefr</a> 正在对该模型进行评估。 “要构建实用的 Agent，不能等待数秒让模型去解析屏幕内容，” H Company 首席执行官 Gautier Cloix 表示。 “基于 Nemotron 3 Nano Omni 构建后，我们的 Agent 能够快速解读全高清屏幕录制视频——这在过去是不切实际的。这不仅仅是速度上的提升：它标志着我们的 Agent 如何实时感知和与数字环境互动发生了根本性的转变。” <h2>Nemotron 3 Nano Omni 助力构建更快速、更精简的多模态 Agent</h2> 想象一下这样一个场景：一个用于客户支持的 AI Agent 在处理屏幕录制的同时，分析上传的通话音频并检查数据日志——或者一个用于金融领域的 Agent 需要解析 PDF、电子表格、图表和语音备忘录。目前，大多数自主系统依靠分别处理视觉、语音和语言的独立模型来完成这些任务。 这种方法通过重复的推理过程增加了延迟，导致跨模态的上下文碎片化，并随着时间的推移增加了成本和 inaccuracies（不准确之处）。 Nemotron 3 Nano Omni 在其 30B-A3B 混合 <a target="_blank" href="https://www.nvidia.com/en-us/glossary/mixture-of-experts/">混合专家（MoE）</a>架构中整合了视觉和音频编码器，从而消除了对独立感知模型的需求，实现了大规模下的推理效率。它将这种效率与强大的多模态感知准确性相结合，使<a target="_blank" href="https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-inteligence">AI 系统能够实现比其他具有相同交互性的开放 Omni 模型高 9 倍的吞吐量</a>

查看原文

查看缓存全文

缓存时间: 2026/05/08 06:47

# NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言，使 AI 智能体的效率提升高达 9 倍来源：https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/ 如今的 AI 智能体系统通常需要同时处理用于视觉、语音和语言的独立模型——在将一个模型的数据传递给另一个模型时，会丢失时间和上下文信息。今日发布的 NVIDIA Nemotron 3 Nano Omni 是一种开放的多模态模型，它将这些能力整合到一个系统中，使智能体能够在视频、音频、图像和文本方面进行高级推理，从而提供更快、更智能的响应。这款顶尖模型为企业和开发者提供了部署更高效、更准确的多模态 AI 智能体的生产路径，并具备完全的部署灵活性和控制权。 Nemotron 3 Nano Omni 以领先的准确性和低成本为开放多模态模型树立了新的效率标杆，在复杂文档智能以及视频和音频理解方面，在六个排行榜中名列前茅（https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model）。目前已采用 Nemotron 3 Nano Omni 的 AI 和软件公司包括 Aible（https://www.aible.com/nemotron3-nano-omni-ai-agent）、Applied Scientific Intelligence (ASI)（https://appliedscientific.ai/research/scientific-ai-literature-agent-nvidia-nemotron-nano-omni?utm_source=nvidia-blog）、Eka Care（https://info.eka.care/services/how-ekacare-is-building-agentic-multimodal-healthcare-for-india-scale-patient-care-with-nvidia-nemotron-3-nano-omni）、富士康、H Company（https://hcompany.ai/holotron3）、Palantir 和 Pyler（https://pyler.tech/articles/scaling-trustworthy-video-safety-with-nvidia-nemotron-3-nano-omni）；Dell Technologies、DocuSign、Infosys、K-Dense（https://www.k-dense.ai/blog/nvidia-nemotron-nano-omni-multimodal-agentic-science）、Lila、Oracle 和 Zefr（https://zefr.com/press/zefr-evaluates-nvidia-nemotron-3-nano-omni-to-power-cognition-ai）正在评估该模型。 “要构建有用的智能体，你不能等待模型花费数秒来解释屏幕内容，”H Company 首席执行官 Gautier Cloix 表示。“基于 Nemotron 3 Nano Omni，我们的智能体可以快速解释全高清屏幕录像——这是以前不切实际的事情。这不仅仅是速度提升：它从根本上改变了我们的智能体实时感知和与数字环境互动的方式。” ## **Nemotron 3 Nano Omni 实现更快、更精简的多模态智能体** 试想一下，一个用于客户支持的 AI 智能体在处理屏幕录像的同时分析上传的通话录音并检查数据日志——或者一个负责解析 PDF、电子表格、图表和语音笔记的金融智能体。如今，大多数智能体系统使用用于视觉、语音和语言的独立模型来完成这些任务。这种方法通过重复的推理过程增加了延迟，在不同模态间分散了上下文，并随着时间的推移增加了成本和误差。通过在其 30B-A3B 混合专家（Mixture-of-Experts, https://www.nvidia.com/en-us/glossary/mixture-of-experts/）架构中结合视觉和音频编码器，Nemotron 3 Nano Omni 消除了对独立感知模型的需求，推动了大规模推理效率。它将这种效率与强大的多模态感知准确性相结合，使 AI 系统能够实现比具有相同交互性的其他开放全模态模型高 9 倍的吞吐量（https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-inteligence）。结果是成本更低、可扩展性更好，且不牺牲响应速度或质量。在智能体系统中，Nemotron 3 Nano Omni 可以与专有云模型或其他 NVIDIA Nemotron 开放模型——例如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra——以及其他提供商的专有模型协同工作，为智能体工作流程（如计算机使用、文档智能和音视频推理）中的子智能体提供动力。 - **计算机使用智能体——**Nemotron 3 Nano Omni 为导航图形用户界面的智能体提供感知循环，对屏幕内容进行推理，并随时间推移理解用户界面状态。H Company 最新的计算机使用智能体（https://www.youtube.com/watch?v=kSi9JS2l0Ww）由 Nemotron 3 Nano Omni 驱动，使用 1920×1080 像素的本机输入分辨率以实现高保真视觉推理。在 OSWorld 基准的初步评估中，这种集成在导航复杂图形界面方面显示出显著飞跃，并利用了 Nemotron 3 Nano Omni 处理超高分辨率图像的能力。 - **文档智能**——解释文档、图表、表格、截图和混合媒体输入，使智能体能够连贯地对视觉结构和文本内容进行推理。对于企业分析和合规工作流程至关重要。 - **音频和视频理解**——对于客户服务、研究和监控工作流程，Nemotron 3 Nano Omni 保持音视频上下文，将所说的内容、展示的内容和记录的内容绑定到单一的推理流中，而不是分散的摘要。 ## **开放且可定制，可部署在任何地方** Nemotron 3 Nano Omni 以开放权重、数据集和训练技术发布——使组织对模型的定制和部署方式拥有完全的透明度和控制权。开发人员可以使用 NVIDIA NeMo（https://www.nvidia.com/en-us/ai-data-science/products/nemo/）等工具进行定制、评估和优化，以适用于特定领域的用例。由于 Nemotron 系列模型是开放的，组织可以在满足监管、主权或数据本地化要求的环境中部署它们。过去一年中，Nemotron 3 系列——包括 Nano、Super 和 Ultra 模型——的下载量已超过 5000 万次。Omni 将该系列的功能扩展到多模态和智能体领域。该模型在 Hugging Face（https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16）、OpenRouter（https://openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free）和 build.nvidia.com（https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning）上作为 NVIDIA NIM 微服务提供，并通过广泛的 NVIDIA 云合作伙伴（https://www.nvidia.com/en-us/data-center/gpu-cloud-computing/partners/）、推理平台和云服务提供商生态系统提供。其开放、轻量级的架构支持从本地系统（如 NVIDIA Jetson（https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/）硬件、NVIDIA DGX Spark（https://www.nvidia.com/en-us/products/workstations/dgx-spark/）和 DGX Station（https://www.nvidia.com/en-us/products/workstations/dgx-station/））到数据中心和云环境的一致部署。 *访问 NVIDIA 技术博客，获取 Nemotron 3 Nano Omni 用例的* ***教程、食谱和部署指南*** *（https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model）。* ***订阅 NVIDIA 新闻*** *（https://www.nvidia.com/en-us/executive-insights/generative-ai-tools/?modal=stay-inf）、* ***加入社区*** *（https://developer.nvidia.com/community）并关注 NVIDIA AI 的* ***LinkedIn*** *（https://www.linkedin.com/showcase/nvidia-ai/posts/?feedView=all）、* ***Instagram*** *（https://www.instagram.com/nvidiaai/?hl=en）、* ***X*** *（https://x.com/NVIDIAAIDev）和* ***Facebook*** *（https://www.facebook.com/NVIDIAAI），以获取关于智能体 AI、NVIDIA Nemotron（https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/）等的最新动态。* *探索* ***自定进度的视频教程和直播*** *（https://youtube.com/playlist?list=PL5B692fm6--vdRKB14FImVi7MTJ77zjn4&feature=shared）。*

@VincentLogic: NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成…

X AI KOLs Timeline

NVIDIA 开源了视频理解模型 Nemotron 3 Nano Omni，采用 3D 卷积技术，处理速度比播放速度快 10 倍，擅长音视频分析、监控检索和素材打标，但不适用于代码或文本推理任务。

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

相似文章

NVIDIA 发布 Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

NVIDIA Nemotron 3 Ultra 已发布。

NVIDIA推出的Nemotron 3 Ultra

@VincentLogic: NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成…

提交意见反馈

相似文章

NVIDIA 发布 Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

NVIDIA Nemotron 3 Ultra 已发布。

NVIDIA推出的Nemotron 3 Ultra

@VincentLogic: NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍 核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成…

提交意见反馈

@VincentLogic: NVIDIA 这次真的不讲武德，直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni，处理视频快得离谱：1 小时就能搞定 10 小时的视频内容，比播放速度还快 10 倍核心靠的是 3D 卷积技术，不再逐帧傻扫，而是成…