NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍
摘要
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。
<div id="bsf_rt_marker"></div><p>当今的 AI Agent 系统往往需要同时调度分别用于视觉、语音和语言的独立模型——在将数据从一个模型传递到另一个模型的过程中,不仅耗费时间,还容易丢失上下文信息。</p>
<p><span style="font-weight: 400;">今天发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放的多模态模型,它将上述能力整合到一个系统中,</span><span style="font-weight: 400;">使 Agent 能够在视频、音频、图像和文本之间进行高级推理,从而提供更快速、更智能的响应。</span><span style="font-weight: 400;">这款业界领先的模型为企业和开发者提供了一条生产路径,用于构建更高效、更精准的多模态 AI Agent,同时提供完整的部署灵活性和控制权。</span></p>
<p><span style="font-weight: 400;">Nemotron 3 Nano Omni 凭借卓越的准确性和低成本,为开放多模态模型树立了新的效率标杆,在复杂文档智能以及视频和音频理解的<a target="_blank" href="https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model">六大排行榜中均位居榜首</a>。</span></p>
<aside style="float: right; width: 320px; max-width: 100%; margin: 0.25rem 0 1.25rem 1.75rem; padding: 1.25rem 1.5rem 1.5rem; background: #fafafa; border-top: 3px solid #76b900; font-family: -apple-system,BlinkMacSystemFont,'Segoe UI',Roboto,'Helvetica Neue',Arial,sans-serif; color: #1a1a1a; font-size: 15px; line-height: 1.55; box-sizing: border-box;">
<p style="margin: 0 0 0.875rem 0; font-size: 11px; letter-spacing: 0.12em; text-transform: uppercase; font-weight: bold; color: #76b900;">概览</p>
<div style="padding: 0 0 0.75rem 0;">
<p style="margin: 0 0 0.2rem 0; font-size: 11px; letter-spacing: 0.06em; text-transform: uppercase; font-weight: 600; color: #6b6b6b;">它是什么</p>
<p style="margin: 0; color: #1a1a1a;">一款开放的全模态推理模型——同类中效率最高的开放多模态模型,且准确性领先</p>
</div>
<div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;">
<p style="margin: 0 0 0.2rem 0; font-size: 11px; letter-spacing: 0.06em; text-transform: uppercase; font-weight: 600; color: #6b6b6b;">处理能力</p>
<p style="margin: 0; color: #1a1a1a;">文本、图像、音频、视频、文档、图表及图形界面(输入);文本(输出)</p>
</div>
<div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;">
<p style="margin: 0 0 0.2rem 0; font-size: 11px; letter-spacing: 0.06em; text-transform: uppercase; font-weight: 600; color: #6b6b6b;">适用对象</p>
<p style="margin: 0; color: #1a1a1a;">正在构建快速可靠的自主系统(Agentic Systems),且需要多模态感知子 Agent 的企业和开发者</p>
</div>
<div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;">
<p style="margin: 0 0 0.2rem 0; font-size: 11px; letter-spacing: 0.06em; text-transform: uppercase; font-weight: 600; color: #6b6b6b;">工作原理</p>
<p style="margin: 0; color: #1a1a1a;">在 Agent 系统中充当“眼睛和耳朵”,与 Nemotron 3 Super 和 Ultra 或其他专有模型协同工作</p>
</div>
<div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;">
<p style="margin: 0 0 0.2rem 0; font-size: 11px; letter-spacing: 0.06em; text-transform: uppercase; font-weight: 600; color: #6b6b6b;">为何重要</p>
<p style="margin: 0; color: #1a1a1a;">拥有领先的多模态准确性和比其他具有相同交互性的开放 Omni 模型高 9 倍的吞吐量,从而在保持响应速度的同时实现更低的成本和更好的可扩展性。</p>
</div>
<div style="padding: 0.75rem 0; border-top: 1px solid #e5e5e5;">
<p style="margin: 0 0 0.2rem 0; font-size: 11px; letter-spacing: 0.06em; text-transform: uppercase; font-weight: 600; color: #6b6b6b;">架构</p>
<p style="margin: 0; color: #1a1a1a;">30B-A3B 混合 MoE(混合专家模型),采用 Conv3D、EVS 技术,支持 256K 上下文</p>
</div>
<div style="padding: 0.75rem 0 0 0; border-top: 1px solid #e5e5e5;">
<p style="margin: 0 0 0.2rem 0; font-size: 11px; letter-spacing: 0.06em; text-transform: uppercase; font-weight: 600; color: #6b6b6b;">可用性</p>
<p style="margin: 0; color: #1a1a1a;">2026 年 4 月 28 日通过 Hugging Face、OpenRouter、build.nvidia.com 及 25 多个合作伙伴平台提供</p>
</div>
</aside>
<p>已经采用 Nemotron 3 Nano Omni 的 AI 和软件公司包括 <a target="_blank" href="https://www.aible.com/nemotron3-nano-omni-ai-agent"><span style="font-weight: 400;">Aible</span></a><span style="font-weight: 400;">、</span><a target="_blank" href="https://appliedscientific.ai/research/scientific-ai-literature-agent-nvidia-nemotron-nano-omni?utm_source=nvidia-blog"><span style="font-weight: 400;">Applied Scientific Intelligence (ASI)</span></a><span style="font-weight: 400;">、</span><a target="_blank" href="https://info.eka.care/services/how-ekacare-is-building-agentic-multimodal-healthcare-for-india-scale-patient-care-with-nvidia-nemotron-3-nano-omni"><span style="font-weight: 400;">Eka Care</span></a><span style="font-weight: 400;">、</span><span style="font-weight: 400;">富士康 (Foxconn)</span><span style="font-weight: 400;">、</span><span style="font-weight: 400;"><a target="_blank" href="https://hcompany.ai/holotron3">H Company</a>、Palantir 和 </span><a target="_blank" href="https://pyler.tech/articles/scaling-trustworthy-video-safety-with-nvidia-nemotron-3-nano-omni"><span style="font-weight: 400;">Pyler</span></a><span style="font-weight: 400;">,此外,</span><span style="font-weight: 400;">Dell Technologies</span><span style="font-weight: 400;">、</span><span style="font-weight: 400;">Docusign、Infosys、<a target="_blank" href="https://www.k-dense.ai/blog/nvidia-nemotron-nano-omni-multimodal-agentic-science">K-Dense</a>、Lila、Oracle </span><span style="font-weight: 400;">和 </span><a target="_blank" href="https://zefr.com/press/zefr-evaluates-nvidia-nemotron-3-nano-omni-to-power-cognition-ai"><span style="font-weight: 400;">Zefr</span></a><span style="font-weight: 400;"> 正在对该模型进行评估。</span></p>
<p><span style="font-weight: 400;">“要构建实用的 Agent,不能等待数秒让模型去解析屏幕内容,”</span> <span style="font-weight: 400;">H Company 首席执行官 Gautier Cloix 表示。</span> <span style="font-weight: 400;">“基于 Nemotron 3 Nano Omni 构建后,我们的 Agent 能够快速解读全高清屏幕录制视频——这在过去是不切实际的。这不仅仅是速度上的提升:它标志着我们的 Agent 如何实时感知和与数字环境互动发生了根本性的转变。”</span></p>
<h2><b>Nemotron 3 Nano Omni 助力构建更快速、更精简的多模态 Agent</b></h2>
<p><span style="font-weight: 400;">想象一下这样一个场景:一个用于客户支持的 AI Agent 在处理屏幕录制的同时,分析上传的通话音频并检查数据日志——或者一个用于金融领域的 Agent 需要解析 PDF、电子表格、图表和语音备忘录。目前,大多数自主系统依靠分别处理视觉、语音和语言的独立模型来完成这些任务。</span></p>
<p><span style="font-weight: 400;">这种方法通过重复的推理过程增加了延迟,导致跨模态的上下文碎片化,并随着时间的推移增加了成本和 inaccuracies(不准确之处)。</span></p>
<p><span style="font-weight: 400;">Nemotron 3 Nano Omni 在其 30B-A3B 混合 </span><a target="_blank" href="https://www.nvidia.com/en-us/glossary/mixture-of-experts/"><span style="font-weight: 400;">混合专家(MoE)</span></a><span style="font-weight: 400;">架构中整合了视觉和音频编码器,从而消除了对独立感知模型的需求,实现了大规模下的推理效率。它将这种效率与强大的多模态感知准确性相结合,使<a target="_blank" href="https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-inteligence">AI 系统能够实现比其他具有相同交互性的开放 Omni 模型高 9 倍的吞吐量</a>
查看缓存全文
缓存时间: 2026/05/08 06:47
# NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言,使 AI 智能体的效率提升高达 9 倍
来源:https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/
如今的 AI 智能体系统通常需要同时处理用于视觉、语音和语言的独立模型——在将一个模型的数据传递给另一个模型时,会丢失时间和上下文信息。
今日发布的 NVIDIA Nemotron 3 Nano Omni 是一种开放的多模态模型,它将这些能力整合到一个系统中,使智能体能够在视频、音频、图像和文本方面进行高级推理,从而提供更快、更智能的响应。这款顶尖模型为企业和开发者提供了部署更高效、更准确的多模态 AI 智能体的生产路径,并具备完全的部署灵活性和控制权。
Nemotron 3 Nano Omni 以领先的准确性和低成本为开放多模态模型树立了新的效率标杆,在复杂文档智能以及视频和音频理解方面,在六个排行榜中名列前茅(https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model)。
目前已采用 Nemotron 3 Nano Omni 的 AI 和软件公司包括 Aible(https://www.aible.com/nemotron3-nano-omni-ai-agent)、Applied Scientific Intelligence (ASI)(https://appliedscientific.ai/research/scientific-ai-literature-agent-nvidia-nemotron-nano-omni?utm_source=nvidia-blog)、Eka Care(https://info.eka.care/services/how-ekacare-is-building-agentic-multimodal-healthcare-for-india-scale-patient-care-with-nvidia-nemotron-3-nano-omni)、富士康、H Company(https://hcompany.ai/holotron3)、Palantir 和 Pyler(https://pyler.tech/articles/scaling-trustworthy-video-safety-with-nvidia-nemotron-3-nano-omni);Dell Technologies、DocuSign、Infosys、K-Dense(https://www.k-dense.ai/blog/nvidia-nemotron-nano-omni-multimodal-agentic-science)、Lila、Oracle 和 Zefr(https://zefr.com/press/zefr-evaluates-nvidia-nemotron-3-nano-omni-to-power-cognition-ai)正在评估该模型。
“要构建有用的智能体,你不能等待模型花费数秒来解释屏幕内容,”H Company 首席执行官 Gautier Cloix 表示。“基于 Nemotron 3 Nano Omni,我们的智能体可以快速解释全高清屏幕录像——这是以前不切实际的事情。这不仅仅是速度提升:它从根本上改变了我们的智能体实时感知和与数字环境互动的方式。”
## **Nemotron 3 Nano Omni 实现更快、更精简的多模态智能体**
试想一下,一个用于客户支持的 AI 智能体在处理屏幕录像的同时分析上传的通话录音并检查数据日志——或者一个负责解析 PDF、电子表格、图表和语音笔记的金融智能体。如今,大多数智能体系统使用用于视觉、语音和语言的独立模型来完成这些任务。
这种方法通过重复的推理过程增加了延迟,在不同模态间分散了上下文,并随着时间的推移增加了成本和误差。
通过在其 30B-A3B 混合专家(Mixture-of-Experts, https://www.nvidia.com/en-us/glossary/mixture-of-experts/)架构中结合视觉和音频编码器,Nemotron 3 Nano Omni 消除了对独立感知模型的需求,推动了大规模推理效率。它将这种效率与强大的多模态感知准确性相结合,使 AI 系统能够实现比具有相同交互性的其他开放全模态模型高 9 倍的吞吐量(https://huggingface.co/blog/nvidia/nemotron-3-nano-omni-multimodal-inteligence)。结果是成本更低、可扩展性更好,且不牺牲响应速度或质量。
在智能体系统中,Nemotron 3 Nano Omni 可以与专有云模型或其他 NVIDIA Nemotron 开放模型——例如用于高频执行的 Nemotron 3 Super 或用于复杂规划的 Nemotron 3 Ultra——以及其他提供商的专有模型协同工作,为智能体工作流程(如计算机使用、文档智能和音视频推理)中的子智能体提供动力。
- **计算机使用智能体——**Nemotron 3 Nano Omni 为导航图形用户界面的智能体提供感知循环,对屏幕内容进行推理,并随时间推移理解用户界面状态。H Company 最新的计算机使用智能体(https://www.youtube.com/watch?v=kSi9JS2l0Ww)由 Nemotron 3 Nano Omni 驱动,使用 1920×1080 像素的本机输入分辨率以实现高保真视觉推理。在 OSWorld 基准的初步评估中,这种集成在导航复杂图形界面方面显示出显著飞跃,并利用了 Nemotron 3 Nano Omni 处理超高分辨率图像的能力。
- **文档智能**——解释文档、图表、表格、截图和混合媒体输入,使智能体能够连贯地对视觉结构和文本内容进行推理。对于企业分析和合规工作流程至关重要。
- **音频和视频理解**——对于客户服务、研究和监控工作流程,Nemotron 3 Nano Omni 保持音视频上下文,将所说的内容、展示的内容和记录的内容绑定到单一的推理流中,而不是分散的摘要。
## **开放且可定制,可部署在任何地方**
Nemotron 3 Nano Omni 以开放权重、数据集和训练技术发布——使组织对模型的定制和部署方式拥有完全的透明度和控制权。
开发人员可以使用 NVIDIA NeMo(https://www.nvidia.com/en-us/ai-data-science/products/nemo/)等工具进行定制、评估和优化,以适用于特定领域的用例。由于 Nemotron 系列模型是开放的,组织可以在满足监管、主权或数据本地化要求的环境中部署它们。过去一年中,Nemotron 3 系列——包括 Nano、Super 和 Ultra 模型——的下载量已超过 5000 万次。Omni 将该系列的功能扩展到多模态和智能体领域。
该模型在 Hugging Face(https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)、OpenRouter(https://openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free)和 build.nvidia.com(https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning)上作为 NVIDIA NIM 微服务提供,并通过广泛的 NVIDIA 云合作伙伴(https://www.nvidia.com/en-us/data-center/gpu-cloud-computing/partners/)、推理平台和云服务提供商生态系统提供。
其开放、轻量级的架构支持从本地系统(如 NVIDIA Jetson(https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/)硬件、NVIDIA DGX Spark(https://www.nvidia.com/en-us/products/workstations/dgx-spark/)和 DGX Station(https://www.nvidia.com/en-us/products/workstations/dgx-station/))到数据中心和云环境的一致部署。
*访问 NVIDIA 技术博客,获取 Nemotron 3 Nano Omni 用例的* ***教程、食谱和部署指南*** *(https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model)。* ***订阅 NVIDIA 新闻*** *(https://www.nvidia.com/en-us/executive-insights/generative-ai-tools/?modal=stay-inf)、* ***加入社区*** *(https://developer.nvidia.com/community)并关注 NVIDIA AI 的* ***LinkedIn*** *(https://www.linkedin.com/showcase/nvidia-ai/posts/?feedView=all)、* ***Instagram*** *(https://www.instagram.com/nvidiaai/?hl=en)、* ***X*** *(https://x.com/NVIDIAAIDev)和* ***Facebook*** *(https://www.facebook.com/NVIDIAAI),以获取关于智能体 AI、NVIDIA Nemotron(https://www.nvidia.com/en-us/ai-data-science/foundation-models/nemotron/)等的最新动态。*
*探索* ***自定进度的视频教程和直播*** *(https://youtube.com/playlist?list=PL5B692fm6--vdRKB14FImVi7MTJ77zjn4&feature=shared)。*
相似文章
NVIDIA 发布 Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态智能
NVIDIA 发布 Nemotron 3 Nano Omni,这是一款新型长上下文多模态 AI 模型,能够以高准确性和高效率处理文档、音频、视频和文本。
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。
NVIDIA Nemotron 3 Ultra 已发布。
NVIDIA 发布了 Nemotron 3 Ultra,这是一款新模型,旨在为长期运行的 AI 智能体提供更快、更高效的推理能力。
NVIDIA推出的Nemotron 3 Ultra
NVIDIA推出了Nemotron 3 Ultra,这是一个新的人工智能模型,旨在为长时间运行的智能体提供更快、更高效的推理能力。
@VincentLogic: NVIDIA 这次真的不讲武德,直接甩出一个开源的视频理解怪兽 Nemotron 3 Nano Omni,处理视频快得离谱:1 小时就能搞定 10 小时的视频内容,比播放速度还快 10 倍 核心靠的是 3D 卷积技术,不再逐帧傻扫,而是成…
NVIDIA 开源了视频理解模型 Nemotron 3 Nano Omni,采用 3D 卷积技术,处理速度比播放速度快 10 倍,擅长音视频分析、监控检索和素材打标,但不适用于代码或文本推理任务。