nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
摘要
NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。
查看缓存全文
缓存时间: 2026/05/08 09:01
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 · Hugging Face
来源:https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#at-a-glance概览
总参数量31B (Mamba2-Transformer 混合 MoE)激活参数量~3B 每 token最大上下文256k tokens输入模态视频、音频、图像、文本输出模态文本推理模式默认开启;通过 enable_thinking 切换最佳适用场景视频+语音分析、文档智能(OCR/图表/长文档)、GUI/智能体工作流、ASR最低 GPU 要求(BF16)1× H100 80GB(单 GPU);推荐 1× B200 / 1× H200最低 GPU 要求(FP8)1× L40S 48GB;推荐 1× RTX Pro 6000 / 1× B200最低 GPU 要求(NVFP4)1× RTX 5090 32GB;同时支持 1× DGX Spark / 1× Jetson Thor精度BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)(62 GB) ·FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8)(33 GB) ·NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4)(21 GB)
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#quick-start-guide快速入门指南
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-parameters模型参数
模式temperaturetop_ptop_kmax_tokensreasoning_budgetgrace_period思考模式0.60.95—20480163841024指令模式0.2—11024——
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-overview模型概述
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#description描述:
NVIDIA Nemotron 3 Nano Omni 是一款多模态大语言模型,统一了视频、音频、图像和文本理解能力,支持企业级的问答、摘要、转录和文档智能工作流。它在 Nemotron Nano 系列基础上扩展了集成视频+语音理解、图形用户界面(GUI)、光学字符识别(OCR)和语音转录能力,支持端到端处理丰富的企业内容,如会议录音、M&E 资产、培训视频和复杂的商业文档。NVIDIA Nemotron 3 Nano Omni 由 NVIDIA 作为 Nemotron 模型家族的一部分开发。
该模型可用于商业用途。
该模型通过 Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen3.5-397B-A17B、Qwen2.5-VL-72B-Instruct 和 gpt-oss-120b 进行了优化。更多信息请参见下方的训练数据集部分。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#licenseterms-of-use许可/使用条款
管辖条款:使用本模型受 NVIDIA Open Model Agreement (https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-agreement/) 约束
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#deployment-geography部署地域:
全球
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#use-case-使用场景:
本模型面向需要多模态理解能力的企业客户设计。预期用户包括:
- 客户服务应用(例如,通过 OCR 验证 Doordash 配送地址视频、得来速订单核验)
- 媒体与娱乐(M&E)— 视频和语音分析、密集字幕、视频搜索与摘要
- AI 助手的文档智能(合同、SOW/MSA、科学发现、金融文档)
- AI 智能体应用的 GUI 自动化(事件管理、智能体搜索、浏览器智能体、邮件智能体)
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#release-date-发布日期:
Build.Nvidia.com 2026/04/28 通过 URL (https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning) Hugging Face 2026/04/28 通过:
- BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)
- FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8)
- NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4)
NGC 2026/04/28 通过 URL (https://catalog.ngc.nvidia.com/orgs/nim/teams/nvidia/containers/nemotron-3-nano-omni-30b-a3b-reasoning)
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-architecture模型架构:
**架构类型:**Mamba2-Transformer 混合专家模型(MoE)
网络架构:
- Nemotron 3 Nano LLM (30B A3B) (https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16)— 31B 参数 Mamba2-Transformer 混合 MoE 主干网络,每 token 约 3B 激活参数。
- CRADIO v4-H (https://huggingface.co/nvidia/C-RADIOv4-H)— 图像和视频帧的视觉编码器。
- Parakeet (https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2)— 音频输入的语音编码器。
**模型参数数量:**3.1 x 10^10 (31B A3B)
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#inputs输入:
**输入类型:**视频、音频、图像、文本
输入格式:
- 视频:mp4,最长 2 分钟。对于 1080p 视频,最高以 1 FPS / 128 帧采样。对于 720p 等低分辨率视频,可使用更高的时间采样率,如 2 FPS / 256 帧。
- 音频:wav、mp3 文件(最长 1 小时),8kHz 及以上采样率
- 图像:红绿蓝(RGB)(jpeg、png)
- 文本:字符串
输入参数:
- 视频:三维(3D)
- 音频:一维(1D)
- 图像:二维(2D)
- 文本:一维(1D)
其他输入相关属性:
- 最大上下文长度可达 256k tokens
- 语言支持:仅英语
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#outputs输出
**输出类型:**文本
输出格式:
- 文本:字符串
输出参数:
- 文本:一维(1D)
其他输出相关属性:
- 最大上下文长度可达 256k tokens。
- 支持 JSON 输出格式
- 支持思维链推理输出
- 支持工具调用
- 支持转录的词级时间戳
我们的 AI 模型专为在 NVIDIA GPU 加速系统上运行而设计和/或优化。通过利用 NVIDIA 的硬件(如 GPU 核心)和软件框架(如 CUDA 库),与纯 CPU 方案相比,该模型实现了更快的训练和推理速度。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#software-integration软件集成:
运行时引擎:
- vLLM
- NeMo
- Megatron
- NeMo-RL
支持的硬件微架构兼容性:
- NVIDIA Ampere(A100 80GB SXM/NVLink)
- NVIDIA Blackwell(B200 SXM/NVLink、RTX Pro 6000 SE、DGX Spark、Jetson Thor、RTX 5090)
- NVIDIA Hopper(H100 SXM/NVLink、H200 SXM/NVLink)
- NVIDIA Lovelace(L40S)
首选/支持的操作系统:
- Linux
推理运行时:
- vLLM
- TensorRT LLM
- TensorRT Edge-LLM
- llama.cpp
- Ollama
- SGLang
将基础和微调模型集成到 AI 系统中需要额外的测试,使用特定用例的数据以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试和验证对于降低风险、满足技术和功能要求、确保符合部署前的安全和伦理标准至关重要。
该 AI 模型可以作为应用程序编程接口(API)调用嵌入到上述软件环境中。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#model-versions模型版本:
Nemotron-3-Nano-Omni-30B-A3B-Reasoning
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#download-model-weights下载模型权重
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#install-the-huggingface-cli安装 HuggingFace CLI
`` pip install -U “huggingface_hub[hf_xet]”
登录一次;token 将缓存在 ~/.cache/huggingface/token
hf auth login
验证:应打印你的用户名和组织
hf auth whoami ``
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#vllmvLLM
**所需版本:**需要 vLLM 0.20.0。即以下容器之一: - CUDA 13.0:‘vllm/vllm-openai:v0.20.0’ (https://hub.docker.com/layers/vllm/vllm-openai/v0.20.0/images/sha256-328268a8e0ceb9fccd301cca6599654908c3cac0e328ddce953c933b432924ef) - CUDA 12.9:‘vllm/vllm-openai:v0.20.0-cu129’ (https://hub.docker.com/layers/vllm/vllm-openai/v0.20.0-cu129/images/sha256-f4ace3494896eeda800dee284d1fc42ca7f5626f31ceae8e24d1383d770567c2)
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#container容器
docker pull vllm/vllm-openai:v0.20.0
**音频支持:**在 vLLM 容器内,运行
vllm serve之前,如果任何音频将被使用(包括传递use_audio_in_video: true):python3 -m pip install "vllm[audio]"
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#general-invocation-1%C3%97gpu-eg-1%C3%97b200通用调用(1×GPU,例如 1×B200)
``
vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 \
vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8 \
vllm serve nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4
–host 0.0.0.0
–max-model-len 131072
–tensor-parallel-size 1
–trust-remote-code
–video-pruning-rate 0.5
–max-num-seqs 384
–allowed-local-media-path /
–media-io-kwargs ‘{“video”: {“fps”: 2, “num_frames”: 256}}’
–reasoning-parser nemotron_v3
–enable-auto-tool-choice
–tool-call-parser qwen3_coder
–kv-cache-dtype fp8 # BF16 时省略此项
``
高效视频采样:video-pruning-rate=0.5 丢弃 50% 的冗余视频 token;视频预填充 VRAM/TTFT 减半。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes平台特定说明
**RTX Pro:**由于 FlashInfer + RTX Pro 的当前 bug,请追加:
--moe-backend triton
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#vllm-on-dgx-spark-aarch64–arm64DGX Spark 上的 vLLM(aarch64 / ARM64)
此处未涵盖的内容(API 示例、推理模式、视频调优),请遵循通用说明。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#1-pull-the-container-image1. 拉取容器镜像
使用上游多架构 vLLM v0.20.0 docker 镜像。Docker 将自动拉取 arm64 变体。
docker pull vllm/vllm-openai:v0.20.0
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#2-launch-the-vllm-server-on-spark2. 在 Spark 上启动 vLLM 服务器
`` WEIGHTS=/path/to/nemotron-3-nano-omni-weights
镜像不包含音频包,因此需要通过 “pip install vllm[audio]” 安装,如下方命令所示
docker run –rm -it
–gpus all
–ipc=host -p 8000:8000
–shm-size=16g
–name vllm-nemotron-omni
-v “${WEIGHTS}:/model:ro”
–entrypoint /bin/bash
vllm/vllm-openai:v0.20.0 -c
“pip install vllm[audio] && vllm serve /model
–served-model-name=nemotron_3_nano_omni
–max-num-seqs 8
–max-model-len 131072
–port 8000
–trust-remote-code
–gpu-memory-utilization 0.8
–limit-mm-per-prompt ‘{"video": 1, "image": 1, "audio": 1}’
–media-io-kwargs ‘{"video": {"fps": 2, "num_frames": 256}}’
–allowed-local-media-path=/
–enable-prefix-caching
–max-num-batched-tokens 32768
–reasoning-parser nemotron_v3
–enable-auto-tool-choice
–tool-call-parser qwen3_coder”
``
在另一个终端中,验证服务器是否就绪:
curl -sS http://localhost:8000/v1/models | python3 -m json.tool
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#key-spark-specific-flagsSpark 关键特定参数
参数用途Spark 指导\-\-gpus all选择 GPUSpark 有一块 GB10 GPU;all 等同于 device=0``\-\-max\-model\-len最大上下文窗口从 131072 开始;如果遇到 OOM 则减小(参见下方内存调优)
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#memory-tuning-on-sparkSpark 内存调优
Spark 使用统一 LPDDR5X 内存(CPU 和 GPU 共享约 128 GB),而非独立的系统内存 + VRAM 池。两个调节杠杆,按影响程度排序:
- 降低
\-\-gpu\-memory\-utilization从 0.85 → 0.70,释放约 19 GB 回操作系统并重新启用权重预取。代价:更小的 KV 缓存预算。 - 降低
\-\-max\-model\-len以减少 KV 缓存分配(例如,在\-\-max\-num\-seqs=1时,上下文窗口减半则 KV 缓存减半)。组合覆盖:
--gpu-memory-utilization=0.70 \ --max-model-len=32768 \
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#tensorrt-llmTensorRT-LLM
该模型也可通过 TensorRT-LLM 部署 — 参见相关说明 (https://github.com/NVIDIA-NeMo/Nemotron/blob/main/usage-cookbook/Nemotron-3-Nano-Omni/trtllm_cookbook.ipynb)。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes-1平台特定说明
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#tensorrt-edge-llmTensorRT Edge-LLM
该模型也可通过 TensorRT Edge-LLM 部署在 NVIDIA Jetson Thor 上 — 参见 Jetson AI Lab 模型页面 (https://www.jetson-ai-lab.com/models/nemotron-3-nano-omni/) 和 TensorRT Edge-LLM 快速入门指南 (https://nvidia.github.io/TensorRT-Edge-LLM/latest/user_guide/getting_started/quick-start-guide.html)。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#sglangSGLang
该模型的 BF16 变体在 SGLang 上受支持,镜像如下:
- CUDA 13.0:
lmsysorg/sglang:dev-cu13-nemotronh-nano-omni-reasoning-v3(https://hub.docker.com/layers/lmsysorg/sglang/dev-cu13-nemotronh-nano-omni-reasoning-v3/images/sha256-302533fef545bbc5efdd2774556a1492034c797bf2978a9dc63ada55e4cf5703) - CUDA 12.9:
lmsysorg/sglang:dev-nemotronh-nano-omni-reasoning-v3(https://hub.docker.com/layers/lmsysorg/sglang/dev-nemotronh-nano-omni-reasoning-v3/images/sha256-23bda4117a86744d9fa08861417869dbd6fb31d5a68b5efba741aca6185f285b)
需先安装 librosa:pip install librosa --break-system-packages
启动服务:sglang serve --model-path nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16 --trust-remote-code
NVFP4 和 FP8 支持即将推出。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#platform-specific-notes-2平台特定说明
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#sglang-on-dgx-spark-aarch64–arm64DGX Spark 上的 SGLang(aarch64 / ARM64)
此处未涵盖的内容(API 示例、推理模式、视频调优),请遵循通用说明。
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#1-pull-the-container-image-11. 拉取容器镜像
使用上方链接的上游多架构 CUDA 13.0 docker 镜像。Docker 将自动拉取 arm64 变体。
docker pull lmsysorg/sglang:dev-cu13-nemotronh-nano-omni-reasoning-v3
https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16#2-launch-the-sglang-server-on-spark2. 在 Spark 上启动 SGLang 服务器
`` WEIGHTS=/path/to/nemotron-3-nano-omni-weights
镜像不包含音频包,因此需要通过 “pip install librosa” 安装,如下方命令所示
相似文章
NVIDIA 发布 Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态智能
NVIDIA 发布 Nemotron 3 Nano Omni,这是一款新型长上下文多模态 AI 模型,能够以高准确性和高效率处理文档、音频、视频和文本。
NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。
OpenAI o3-mini
OpenAI 发布 o3-mini,一款成本高效的推理模型,具备强大的 STEM 能力,现已在 ChatGPT 和 API 中可用,支持函数调用、结构化输出和三个推理力度级别。该模型在数学和编码方面与 o1 性能相当,同时更快且更便宜,免费计划用户首次获得推理模型的访问权限。
用图像思考
OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。
OpenAI o3 和 o4-mini 系统卡
OpenAI 发布了 o3 和 o4-mini 模型的系统卡,这些模型具有先进的推理能力,结合了工具集成(网络浏览、Python、图像分析等),并根据 OpenAI 的 Preparedness Framework v2 在生物、网络安全和 AI 自我改进等领域进行了安全性评估。