nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

Hugging Face Models Trending 2026/04/20 04:40 模型

multimodal nvidia nemotron open-source reasoning enterprise-ai

摘要

NVIDIA 发布 Nemotron 3 Nano Omni，一款 300 亿参数的多模态模型，能够处理视频、音频、图像和文本，并集成推理能力，适用于企业工作流。

任务：任意模态到任意模态标签：transformers, safetensors, NemotronH_Nano_Omni_Reasoning_V3, 特征提取, nvidia, pytorch, 多模态, 任意模态到任意模态, custom_code, 数据集:nvidia/Nemotron-Image-Training-v3, arxiv:2604.24954, 许可证:其他, 部署:azure, 区域:us

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:01

nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 · Hugging Face

来源：https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#at-a-glance概览

总参数量31B (Mamba2-Transformer 混合 MoE)激活参数量~3B 每 token最大上下文256k tokens输入模态视频、音频、图像、文本输出模态文本推理模式默认开启；通过 enable_thinking 切换最佳适用场景视频+语音分析、文档智能（OCR/图表/长文档）、GUI/智能体工作流、ASR最低 GPU 要求（BF16)1× H100 80GB（单 GPU）；推荐 1× B200 / 1× H200最低 GPU 要求（FP8)1× L40S 48GB；推荐 1× RTX Pro 6000 / 1× B200最低 GPU 要求（NVFP4)1× RTX 5090 32GB；同时支持 1× DGX Spark / 1× Jetson Thor精度BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)(62 GB) ·FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8)(33 GB) ·NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4)(21 GB)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#quick-start-guide快速入门指南

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-parameters模型参数

模式temperaturetop_ptop_kmax_tokensreasoning_budgetgrace_period思考模式0.60.95—20480163841024指令模式0.2—11024——

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-overview模型概述

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#description描述：

NVIDIA Nemotron 3 Nano Omni 是一款多模态大语言模型，统一了视频、音频、图像和文本理解能力，支持企业级的问答、摘要、转录和文档智能工作流。它在 Nemotron Nano 系列基础上扩展了集成视频+语音理解、图形用户界面（GUI）、光学字符识别（OCR）和语音转录能力，支持端到端处理丰富的企业内容，如会议录音、M&E 资产、培训视频和复杂的商业文档。NVIDIA Nemotron 3 Nano Omni 由 NVIDIA 作为 Nemotron 模型家族的一部分开发。

该模型可用于商业用途。

该模型通过 Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct 和 gpt-oss-120b 进行了优化。更多信息请参见下方的训练数据集部分。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#licenseterms-of-use许可/使用条款

管辖条款：使用本模型受 NVIDIA Open Model Agreement (https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-agreement/) 约束

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#deployment-geography部署地域：

全球

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#use-case-使用场景：

本模型面向需要多模态理解能力的企业客户设计。预期用户包括：

客户服务应用（例如，通过 OCR 验证 Doordash 配送地址视频、得来速订单核验）
媒体与娱乐（M&E）— 视频和语音分析、密集字幕、视频搜索与摘要
AI 助手的文档智能（合同、SOW/MSA、科学发现、金融文档）
AI 智能体应用的 GUI 自动化（事件管理、智能体搜索、浏览器智能体、邮件智能体）

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#release-date-发布日期：

Build.Nvidia.com 2026/04/28 通过 URL (https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning) Hugging Face 2026/04/28 通过：

BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)
FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8)
NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4)

NGC 2026/04/28 通过 URL (https://catalog.ngc.nvidia.com/orgs/nim/teams/nvidia/containers/nemotron-3-nano-omni-30b-a3b-reasoning)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-architecture模型架构：

**架构类型：**Mamba2-Transformer 混合专家模型（MoE）

网络架构：

Nemotron 3 Nano LLM (30B A3B) (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16)— 31B 参数 Mamba2-Transformer 混合 MoE 主干网络，每 token 约 3B 激活参数。
CRADIO v4-H (https://huggingface.co/nvidia/C-RADIOv4-H)— 图像和视频帧的视觉编码器。
Parakeet (https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2)— 音频输入的语音编码器。

**模型参数数量：**3.1 x 10^10 (31B A3B)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#inputs输入：

**输入类型：**视频、音频、图像、文本

输入格式：

视频：mp4，最长 2 分钟。对于 1080p 视频，最高以 1 FPS / 128 帧采样。对于 720p 等低分辨率视频，可使用更高的时间采样率，如 2 FPS / 256 帧。
音频：wav、mp3 文件（最长 1 小时），8kHz 及以上采样率
图像：红绿蓝（RGB）（jpeg、png）
文本：字符串

输入参数：

视频：三维（3D）
音频：一维（1D）
图像：二维（2D）
文本：一维（1D）

其他输入相关属性：

最大上下文长度可达 256k tokens
语言支持：仅英语

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#outputs输出

**输出类型：**文本

输出格式：

文本：字符串

输出参数：

文本：一维（1D）

其他输出相关属性：

最大上下文长度可达 256k tokens。
支持 JSON 输出格式
支持思维链推理输出
支持工具调用
支持转录的词级时间戳

我们的 AI 模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过利用 NVIDIA 的硬件（如 GPU 核心）和软件框架（如 CUDA 库），与纯 CPU 方案相比，该模型实现了更快的训练和推理速度。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#software-integration软件集成：

运行时引擎：

vLLM
NeMo
Megatron
NeMo-RL

支持的硬件微架构兼容性：

NVIDIA Ampere（A100 80GB SXM/NVLink）
NVIDIA Blackwell（B200 SXM/NVLink、RTX Pro 6000 SE、DGX Spark、Jetson Thor、RTX 5090）
NVIDIA Hopper（H100 SXM/NVLink、H200 SXM/NVLink）
NVIDIA Lovelace（L40S）

首选/支持的操作系统：

Linux

推理运行时：

vLLM
TensorRT LLM
TensorRT Edge-LLM
llama.cpp
Ollama
SGLang

将基础和微调模型集成到 AI 系统中需要额外的测试，使用特定用例的数据以确保安全有效的部署。遵循 V 模型方法论，在单元和系统层面进行迭代测试和验证对于降低风险、满足技术和功能要求、确保符合部署前的安全和伦理标准至关重要。

该 AI 模型可以作为应用程序编程接口（API）调用嵌入到上述软件环境中。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-versions模型版本：

Nemotron-3-Nano-Omni-30B-A3B-Reasoning

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#download-model-weights下载模型权重

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#install-the-huggingface-cli安装 HuggingFace CLI

`` pip install -U “huggingface_hub[hf_xet]”

登录一次；token 将缓存在 ~/.cache/huggingface/token

hf auth login

验证：应打印你的用户名和组织

hf auth whoami ``

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#vllmvLLM

**所需版本：**需要 vLLM 0.20.0。即以下容器之一： - CUDA 13.0：‘vllm/vllm-openai:v0.20.0’ (https://hub.docker.com/layers/vllm/vllm-openai/v0.20.0/images/sha256-328268a8e0ceb9fccd301cca6599654908c3cac0e328ddce953c933b432924ef) - CUDA 12.9：‘vllm/vllm-openai:v0.20.0-cu129’ (https://hub.docker.com/layers/vllm/vllm-openai/v0.20.0-cu129/images/sha256-f4ace3494896eeda800dee284d1fc42ca7f5626f31ceae8e24d1383d770567c2)

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#container容器

docker pull vllm/vllm-openai:v0.20.0

**音频支持：**在 vLLM 容器内，运行 vllm serve 之前，如果任何音频将被使用（包括传递 use_audio_in_video: true）： python3 -m pip install "vllm[audio]"

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#general-invocation-1%C3%97gpu-eg-1%C3%97b200通用调用（1×GPU，例如 1×B200）

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 \

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8 \

vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4
–host 0.0.0.0
–max-model-len 131072
–tensor-parallel-size 1
–trust-remote-code
–video-pruning-rate 0.5
–max-num-seqs 384
–allowed-local-media-path /
–media-io-kwargs ‘{“video”: {“fps”: 2, “num_frames”: 256}}’
–reasoning-parser nemotron_v3
–enable-auto-tool-choice
–tool-call-parser qwen3_coder
–kv-cache-dtype fp8 # BF16 时省略此项 ``

高效视频采样：video-pruning-rate=0.5 丢弃 50% 的冗余视频 token；视频预填充 VRAM/TTFT 减半。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes平台特定说明

**RTX Pro：**由于 FlashInfer + RTX Pro 的当前 bug，请追加：--moe-backend triton

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#vllm-on-dgx-spark-aarch64–arm64DGX Spark 上的 vLLM（aarch64 / ARM64）

此处未涵盖的内容（API 示例、推理模式、视频调优），请遵循通用说明。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#1-pull-the-container-image1. 拉取容器镜像

使用上游多架构 vLLM v0.20.0 docker 镜像。Docker 将自动拉取 arm64 变体。

docker pull vllm/vllm-openai:v0.20.0

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#2-launch-the-vllm-server-on-spark2. 在 Spark 上启动 vLLM 服务器

`` WEIGHTS=/path/to/nemotron-3-nano-omni-weights

镜像不包含音频包，因此需要通过 “pip install vllm[audio]” 安装，如下方命令所示

docker run –rm -it
–gpus all
–ipc=host -p 8000:8000
–shm-size=16g
–name vllm-nemotron-omni
-v “${WEIGHTS}:/model:ro”
–entrypoint /bin/bash
vllm/vllm-openai:v0.20.0 -c
“pip install vllm[audio] && vllm serve /model
–served-model-name=nemotron_3_nano_omni
–max-num-seqs 8
–max-model-len 131072
–port 8000
–trust-remote-code
–gpu-memory-utilization 0.8
–limit-mm-per-prompt ‘{"video": 1, "image": 1, "audio": 1}’
–media-io-kwargs ‘{"video": {"fps": 2, "num_frames": 256}}’
–allowed-local-media-path=/
–enable-prefix-caching
–max-num-batched-tokens 32768
–reasoning-parser nemotron_v3
–enable-auto-tool-choice
–tool-call-parser qwen3_coder” ``

在另一个终端中，验证服务器是否就绪：

curl -sS http://localhost:8000/v1/models | python3 -m json.tool

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#key-spark-specific-flagsSpark 关键特定参数

参数用途Spark 指导\-\-gpus all选择 GPUSpark 有一块 GB10 GPU；all 等同于 device=0``\-\-max\-model\-len最大上下文窗口从 131072 开始；如果遇到 OOM 则减小（参见下方内存调优）

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#memory-tuning-on-sparkSpark 内存调优

Spark 使用统一 LPDDR5X 内存（CPU 和 GPU 共享约 128 GB），而非独立的系统内存 + VRAM 池。两个调节杠杆，按影响程度排序：

降低 \-\-gpu\-memory\-utilization 从 0.85 → 0.70，释放约 19 GB 回操作系统并重新启用权重预取。代价：更小的 KV 缓存预算。
降低 \-\-max\-model\-len 以减少 KV 缓存分配（例如，在 \-\-max\-num\-seqs=1 时，上下文窗口减半则 KV 缓存减半）。组合覆盖：

--gpu-memory-utilization=0.70 \ --max-model-len=32768 \

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#tensorrt-llmTensorRT-LLM

该模型也可通过 TensorRT-LLM 部署 — 参见相关说明 (https://github.com/NVIDIA-NeMo/Nemotron/blob/main/usage-cookbook/Nemotron-3-Nano-Omni/trtllm_cookbook.ipynb)。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes-1平台特定说明

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#tensorrt-edge-llmTensorRT Edge-LLM

该模型也可通过 TensorRT Edge-LLM 部署在 NVIDIA Jetson Thor 上 — 参见 Jetson AI Lab 模型页面 (https://www.jetson-ai-lab.com/models/nemotron-3-nano-omni/) 和 TensorRT Edge-LLM 快速入门指南 (https://nvidia.github.io/TensorRT-Edge-LLM/latest/user_guide/getting_started/quick-start-guide.html)。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#sglangSGLang

该模型的 BF16 变体在 SGLang 上受支持，镜像如下：

CUDA 13.0：lmsysorg/sglang:dev-cu13-nemotronh-nano-omni-reasoning-v3 (https://hub.docker.com/layers/lmsysorg/sglang/dev-cu13-nemotronh-nano-omni-reasoning-v3/images/sha256-302533fef545bbc5efdd2774556a1492034c797bf2978a9dc63ada55e4cf5703)
CUDA 12.9：lmsysorg/sglang:dev-nemotronh-nano-omni-reasoning-v3 (https://hub.docker.com/layers/lmsysorg/sglang/dev-nemotronh-nano-omni-reasoning-v3/images/sha256-23bda4117a86744d9fa08861417869dbd6fb31d5a68b5efba741aca6185f285b)

需先安装 librosa：pip install librosa --break-system-packages

启动服务：sglang serve --model-path nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 --trust-remote-code

NVFP4 和 FP8 支持即将推出。

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes-2平台特定说明

https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#sglang-on-dgx-spark-aarch64–arm64DGX Spark 上的 SGLang（aarch64 / ARM64）