nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

Hugging Face Models Trending 模型

摘要

NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。

任务:任意模态到任意模态 标签:transformers, safetensors, NemotronH_Nano_Omni_Reasoning_V3, 特征提取, nvidia, pytorch, 多模态, 任意模态到任意模态, custom_code, 数据集:nvidia/Nemotron-Image-Training-v3, arxiv:2604.24954, 许可证:其他, 部署:azure, 区域:us
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 09:01

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 · Hugging Face

来源:https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#at-a-glance概览

总参数量31B (Mamba2-Transformer 混合 MoE)激活参数量~3B 每 token最大上下文256k tokens输入模态视频、音频、图像、文本输出模态文本推理模式默认开启;通过 enable_thinking 切换最佳适用场景视频+语音分析、文档智能(OCR/图表/长文档)、GUI/智能体工作流、ASR最低 GPU 要求(BF16)1× H100 80GB(单 GPU);推荐 1× B200 / 1× H200最低 GPU 要求(FP8)1× L40S 48GB;推荐 1× RTX Pro 6000 / 1× B200最低 GPU 要求(NVFP4)1× RTX 5090 32GB;同时支持 1× DGX Spark / 1× Jetson Thor精度BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)(62 GB) ·FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8)(33 GB) ·NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4)(21 GB)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#quick-start-guide快速入门指南

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-parameters模型参数

模式temperaturetop_ptop_kmax_tokensreasoning_budgetgrace_period思考模式0.60.95—20480163841024指令模式0.2—11024——

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-overview模型概述

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#description描述:

NVIDIA Nemotron 3 Nano Omni 是一款多模态大语言模型,统一了视频、音频、图像和文本理解能力,支持企业级的问答、摘要、转录和文档智能工作流。它在 Nemotron Nano 系列基础上扩展了集成视频+语音理解、图形用户界面(GUI)、光学字符识别(OCR)和语音转录能力,支持端到端处理丰富的企业内容,如会议录音、M&E 资产、培训视频和复杂的商业文档。NVIDIA Nemotron 3 Nano Omni 由 NVIDIA 作为 Nemotron 模型家族的一部分开发。

该模型可用于商业用途。

该模型通过 Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct 和 gpt-oss-120b 进行了优化。更多信息请参见下方的训练数据集部分。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#licenseterms-of-use许可/使用条款

管辖条款:使用本模型受 NVIDIA Open Model Agreement (https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-agreement/) 约束

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#deployment-geography部署地域:

全球

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#use-case-使用场景:

本模型面向需要多模态理解能力的企业客户设计。预期用户包括:

  • 客户服务应用(例如,通过 OCR 验证 Doordash 配送地址视频、得来速订单核验)
  • 媒体与娱乐(M&E)— 视频和语音分析、密集字幕、视频搜索与摘要
  • AI 助手的文档智能(合同、SOW/MSA、科学发现、金融文档)
  • AI 智能体应用的 GUI 自动化(事件管理、智能体搜索、浏览器智能体、邮件智能体)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#release-date-发布日期:

Build.Nvidia.com 2026/04/28 通过 URL (https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning) Hugging Face 2026/04/28 通过:

  • BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)
  • FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8)
  • NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4)

NGC 2026/04/28 通过 URL (https://catalog.ngc.nvidia.com/orgs/nim/teams/nvidia/containers/nemotron-3-nano-omni-30b-a3b-reasoning)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-architecture模型架构:

**架构类型:**Mamba2-Transformer 混合专家模型(MoE)

网络架构:

  • Nemotron 3 Nano LLM (30B A3B) (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16)— 31B 参数 Mamba2-Transformer 混合 MoE 主干网络,每 token 约 3B 激活参数。
  • CRADIO v4-H (https://huggingface.co/nvidia/C-RADIOv4-H)— 图像和视频帧的视觉编码器。
  • Parakeet (https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2)— 音频输入的语音编码器。

**模型参数数量:**3.1 x 10^10 (31B A3B)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#inputs输入:

**输入类型:**视频、音频、图像、文本

输入格式:

  • 视频:mp4,最长 2 分钟。对于 1080p 视频,最高以 1 FPS / 128 帧采样。对于 720p 等低分辨率视频,可使用更高的时间采样率,如 2 FPS / 256 帧。
  • 音频:wav、mp3 文件(最长 1 小时),8kHz 及以上采样率
  • 图像:红绿蓝(RGB)(jpeg、png)
  • 文本:字符串

输入参数:

  • 视频:三维(3D)
  • 音频:一维(1D)
  • 图像:二维(2D)
  • 文本:一维(1D)

其他输入相关属性:

  • 最大上下文长度可达 256k tokens
  • 语言支持:仅英语

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#outputs输出

**输出类型:**文本

输出格式:

  • 文本:字符串

输出参数:

  • 文本:一维(1D)

其他输出相关属性:

  • 最大上下文长度可达 256k tokens。
  • 支持 JSON 输出格式
  • 支持思维链推理输出
  • 支持工具调用
  • 支持转录的词级时间戳

我们的 AI 模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与纯 CPU 方案相比,该模型实现了更快的训练和推理速度。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#software-integration软件集成:

运行时引擎:

  • vLLM
  • NeMo
  • Megatron
  • NeMo-RL

支持的硬件微架构兼容性:

  • NVIDIA Ampere(A100 80GB SXM/NVLink)
  • NVIDIA Blackwell(B200 SXM/NVLink、RTX Pro 6000 SE、DGX Spark、Jetson Thor、RTX 5090)
  • NVIDIA Hopper(H100 SXM/NVLink、H200 SXM/NVLink)
  • NVIDIA Lovelace(L40S)

首选/支持的操作系统:

  • Linux

推理运行时:

  • vLLM
  • TensorRT LLM
  • TensorRT Edge-LLM
  • llama.cpp
  • Ollama
  • SGLang

将基础和微调模型集成到 AI 系统中需要额外的测试,使用特定用例的数据以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证对于降低风险、满足技术和功能要求、确保符合部署前的安全和伦理标准至关重要。

该 AI 模型可以作为应用程序编程接口(API)调用嵌入到上述软件环境中。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-versions模型版本:

Nemotron-3-Nano-Omni-30B-A3B-Reasoning


https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#download-model-weights下载模型权重

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#install-the-huggingface-cli安装 HuggingFace CLI

`` pip install -U “huggingface_hub[hf_xet]”

登录一次;token 将缓存在 ~/.cache/huggingface/token

hf auth login

验证:应打印你的用户名和组织

hf auth whoami ``


https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#vllmvLLM

**所需版本:**需要 vLLM 0.20.0。即以下容器之一: - CUDA 13.0:‘vllm/vllm-openai:v0.20.0’ (https://hub.docker.com/layers/vllm/vllm-openai/v0.20.0/images/sha256-328268a8e0ceb9fccd301cca6599654908c3cac0e328ddce953c933b432924ef) - CUDA 12.9:‘vllm/vllm-openai:v0.20.0-cu129’ (https://hub.docker.com/layers/vllm/vllm-openai/v0.20.0-cu129/images/sha256-f4ace3494896eeda800dee284d1fc42ca7f5626f31ceae8e24d1383d770567c2)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#container容器

docker pull vllm/vllm-openai:v0.20.0

**音频支持:**在 vLLM 容器内,运行 vllm serve 之前,如果任何音频将被使用(包括传递 use_audio_in_video: true): python3 -m pip install "vllm[audio]"

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#general-invocation-1%C3%97gpu-eg-1%C3%97b200通用调用(1×GPU,例如 1×B200)

``

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 \

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8 \

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4
–host 0.0.0.0
–max-model-len 131072
–tensor-parallel-size 1
–trust-remote-code
–video-pruning-rate 0.5
–max-num-seqs 384
–allowed-local-media-path /
–media-io-kwargs ‘{“video”: {“fps”: 2, “num_frames”: 256}}’
–reasoning-parser nemotron_v3
–enable-auto-tool-choice
–tool-call-parser qwen3_coder
–kv-cache-dtype fp8 # BF16 时省略此项 ``

高效视频采样:video-pruning-rate=0.5 丢弃 50% 的冗余视频 token;视频预填充 VRAM/TTFT 减半。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes平台特定说明

**RTX Pro:**由于 FlashInfer + RTX Pro 的当前 bug,请追加:--moe-backend triton

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#vllm-on-dgx-spark-aarch64–arm64DGX Spark 上的 vLLM(aarch64 / ARM64)

此处未涵盖的内容(API 示例、推理模式、视频调优),请遵循通用说明。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#1-pull-the-container-image1. 拉取容器镜像

使用上游多架构 vLLM v0.20.0 docker 镜像。Docker 将自动拉取 arm64 变体。

docker pull vllm/vllm-openai:v0.20.0

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#2-launch-the-vllm-server-on-spark2. 在 Spark 上启动 vLLM 服务器

`` WEIGHTS=/path/to/nemotron-3-nano-omni-weights

镜像不包含音频包,因此需要通过 “pip install vllm[audio]” 安装,如下方命令所示

docker run –rm -it
–gpus all
–ipc=host -p 8000:8000
–shm-size=16g
–name vllm-nemotron-omni
-v “${WEIGHTS}:/model:ro”
–entrypoint /bin/bash
vllm/vllm-openai:v0.20.0 -c
“pip install vllm[audio] && vllm serve /model
–served-model-name=nemotron_3_nano_omni
–max-num-seqs 8
–max-model-len 131072
–port 8000
–trust-remote-code
–gpu-memory-utilization 0.8
–limit-mm-per-prompt ‘{"video": 1, "image": 1, "audio": 1}’
–media-io-kwargs ‘{"video": {"fps": 2, "num_frames": 256}}’
–allowed-local-media-path=/
–enable-prefix-caching
–max-num-batched-tokens 32768
–reasoning-parser nemotron_v3
–enable-auto-tool-choice
–tool-call-parser qwen3_coder” ``

在另一个终端中,验证服务器是否就绪:

curl -sS http://localhost:8000/v1/models | python3 -m json.tool

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#key-spark-specific-flagsSpark 关键特定参数

参数用途Spark 指导\-\-gpus all选择 GPUSpark 有一块 GB10 GPU;all 等同于 device=0``\-\-max\-model\-len最大上下文窗口从 131072 开始;如果遇到 OOM 则减小(参见下方内存调优)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#memory-tuning-on-sparkSpark 内存调优

Spark 使用统一 LPDDR5X 内存(CPU 和 GPU 共享约 128 GB),而非独立的系统内存 + VRAM 池。两个调节杠杆,按影响程度排序:

  1. 降低 \-\-gpu\-memory\-utilization 从 0.85 → 0.70,释放约 19 GB 回操作系统并重新启用权重预取。代价:更小的 KV 缓存预算。
  2. 降低 \-\-max\-model\-len 以减少 KV 缓存分配(例如,在 \-\-max\-num\-seqs=1 时,上下文窗口减半则 KV 缓存减半)。组合覆盖:

--gpu-memory-utilization=0.70 \ --max-model-len=32768 \


https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#tensorrt-llmTensorRT-LLM

该模型也可通过 TensorRT-LLM 部署 — 参见相关说明 (https://github.com/NVIDIA-NeMo/Nemotron/blob/main/usage-cookbook/Nemotron-3-Nano-Omni/trtllm_cookbook.ipynb)。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes-1平台特定说明

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#tensorrt-edge-llmTensorRT Edge-LLM

该模型也可通过 TensorRT Edge-LLM 部署在 NVIDIA Jetson Thor 上 — 参见 Jetson AI Lab 模型页面 (https://www.jetson-ai-lab.com/models/nemotron-3-nano-omni/) 和 TensorRT Edge-LLM 快速入门指南 (https://nvidia.github.io/TensorRT-Edge-LLM/latest/user_guide/getting_started/quick-start-guide.html)。


https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#sglangSGLang

该模型的 BF16 变体在 SGLang 上受支持,镜像如下:

  • CUDA 13.0:lmsysorg/sglang:dev-cu13-nemotronh-nano-omni-reasoning-v3 (https://hub.docker.com/layers/lmsysorg/sglang/dev-cu13-nemotronh-nano-omni-reasoning-v3/images/sha256-302533fef545bbc5efdd2774556a1492034c797bf2978a9dc63ada55e4cf5703)
  • CUDA 12.9:lmsysorg/sglang:dev-nemotronh-nano-omni-reasoning-v3 (https://hub.docker.com/layers/lmsysorg/sglang/dev-nemotronh-nano-omni-reasoning-v3/images/sha256-23bda4117a86744d9fa08861417869dbd6fb31d5a68b5efba741aca6185f285b)

需先安装 librosapip install librosa --break-system-packages

启动服务:sglang serve --model-path nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 --trust-remote-code

NVFP4 和 FP8 支持即将推出。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes-2平台特定说明

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#sglang-on-dgx-spark-aarch64–arm64DGX Spark 上的 SGLang(aarch64 / ARM64)

此处未涵盖的内容(API 示例、推理模式、视频调优),请遵循通用说明。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#1-pull-the-container-image-11. 拉取容器镜像

使用上方链接的上游多架构 CUDA 13.0 docker 镜像。Docker 将自动拉取 arm64 变体。

docker pull lmsysorg/sglang:dev-cu13-nemotronh-nano-omni-reasoning-v3

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#2-launch-the-sglang-server-on-spark2. 在 Spark 上启动 SGLang 服务器

`` WEIGHTS=/path/to/nemotron-3-nano-omni-weights

镜像不包含音频包,因此需要通过 “pip install librosa” 安装,如下方命令所示

相似文章

OpenAI o3-mini

OpenAI Blog

OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。

用图像思考

OpenAI Blog

OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。

OpenAI o3 和 o4-mini 系统卡

OpenAI Blog

OpenAI 发布了 o3 和 o4-mini 模型的系统卡,这些模型具有先进的推理能力,结合了工具集成(网络浏览、Python、图像分析等),并根据 OpenAI 的 Preparedness Framework v2 在生物、网络安全和 AI 自我改进等领域进行了安全性评估。