nvidia/nemotron-3.5-asr-streaming-0.6b
摘要
NVIDIA 发布 Nemotron 3.5 ASR,这是一个6亿参数的多语言流式语音识别模型,支持40种语言区域,采用缓存感知的FastConformer-RNNT架构实现低延迟转录。该模型支持可配置的块大小,并已在OpenMDW-1.1许可证下准备商业化使用。
查看缓存全文
缓存时间: 2026/06/05 02:21
nvidia/nemotron-3.5-asr-streaming-0.6b · Hugging Face 来源:https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b 模型架构 (https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#model-architecture)
模型大小 (https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#model-architecture)
语言 (https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#supported-languages)
Nemotron 3.5 ASR 概述: 通过一个带有语言ID提示的缓存感知FastConformer-RNNT模型,将40种语言区域的多语言音频转录为带标点的文本,并自动添加语言标签。
本模型是
nvidia/nemotron-speech-streaming-en-0.6b(https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b) 的多语言扩展版本,新增了语言ID提示条件化功能,支持来自单个模型的40种语言区域转录。
Nemotron 3.5 ASR 是一款多语言流式自动语音识别(ASR)模型,专为在低延迟流式和高吞吐量批量任务中实现高质量多语言转录而设计。该模型由NVIDIA开发,拥有6亿参数,可将语音转录为文本,原生支持标点和大写,并提供可配置的音频块大小(80ms、160ms、320ms、560ms和1120ms)以实现运行时灵活性。通过采用最先进的缓存感知FastConformer-RNNT架构,该模型消除了传统“缓冲”流式中常见的冗余重叠计算。它仅处理新的音频块,同时复用缓存的编码器上下文,从而显著提高计算效率并减少端到端延迟,且不牺牲准确性。该模型基于大规模ASR数据集训练,能够在多样且具有挑战性的声学条件下稳定运行。本模型已可用于商业用途。
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#supported-languages 支持的语言
本模型总共支持40种语言区域,分为三个等级:
- 转录就绪(19个区域): 最高准确率的ASR,开箱即用。
- 广泛覆盖(13个区域): 额外13个区域的生产级ASR。
- 适配就绪(8个区域): 分词器可识别;基于领域数据进行微调以释放完整转录能力。
| 等级 | 语言(区域) |
|---|---|
| 转录就绪(19个区域) | 英语 (en-US, en-GB), 西班牙语 (es-US, es-ES), 法语 (fr-FR, fr-CA), 意大利语 (it-IT), 葡萄牙语 (pt-BR, pt-PT), 荷兰语 (nl-NL), 德语 (de-DE), 土耳其语 (tr-TR), 俄语 (ru-RU), 阿拉伯语 (ar-AR), 印地语 (hi-IN), 日语 (ja-JP), 韩语 (ko-KR), 越南语 (vi-VN), 乌克兰语 (uk-UA) |
| 广泛覆盖(13个区域) | 波兰语 (pl-PL), 瑞典语 (sv-SE), 捷克语 (cs-CZ), 挪威布克莫尔语 (nb-NO), 丹麦语 (da-DK), 保加利亚语 (bg-BG), 芬兰语 (fi-FI), 克罗地亚语 (hr-HR), 斯洛伐克语 (sk-SK), 汉语普通话 (zh-CN), 匈牙利语 (hu-HU), 罗马尼亚语 (ro-RO), 爱沙尼亚语 (et-EE) |
| 适配就绪(8个区域) | 希腊语 (el-GR), 立陶宛语 (lt-LT), 拉脱维亚语 (lv-LV), 马耳他语 (mt-MT), 斯洛文尼亚语 (sl-SI), 希伯来语 (he-IL), 泰语 (th-TH), 挪威尼诺斯克语 (nn-NO) |
注意: 转录就绪和广泛覆盖的区域(共32种)可直接进行ASR转录;适配就绪的区域需要基于领域数据进行微调才能启用完整转录。模型支持大小写字母、标点、空格和撇号。
注意: 对于仅英语的转录场景,我们建议使用 Nemotron ASR Streaming (English) 模型。对于其他转录就绪的区域,推荐使用 Nemotron 3.5 ASR 以利用其扩展的多语言能力。
自动语言检测/语言标记: 当设置
target_lang=auto时,模型会检测所讲的语言,并在输出中终端标点后发出相应的语言代码/标签。这使得单个部署可以转录混合语言流量,并自动为每个话语标记检测到的语言——无需单独的语言ID组件。
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#results-at-a-glance 结果概览
ASR性能通过 FLEURS 测试集上的词错误率(WER)进行衡量。两种模式下准确性均表现强劲,且随着块大小增加而提升,即使在最低延迟80ms设置下也保持竞争力。完整表格参见 性能。
FLEURS 平均 WER vs 流式块大小(语言ID vs 自动检测)
FLEURS 按语言的WER:语言ID vs 自动检测,块大小为320ms
注意: 日语和韩语使用字符错误率(CER)而非WER进行衡量,这是这些语言的标准做法。
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#explore-more-from-nvidia 探索更多NVIDIA内容
有关文档、部署指南、企业级API以及最新的开放模型(包括 Nemotron 和其他前沿语音、翻译和生成式 AI),请访问 NVIDIA 开发者门户 developer.nvidia.com。加入社区,获取工具、支持和资源,加速您在 NVIDIA NeMo、Speech NIM 和基础模型上的开发。
另外,查看以下 NVIDIA 语音模型:
- Nemotron ASR Streaming (English) (Nemotron 3 ASR) - https://huggingface.co/nvidia/nemotron-speech-streaming-en-0.6b
- Multitalker Parakeet Streaming - https://huggingface.co/nvidia/multitalker-parakeet-streaming-0.6b-v1
- Parakeet Realtime EOU - https://huggingface.co/nvidia/parakeet_realtime_eou_120m-v1
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#how-to-use-this-model 如何使用本模型
本模型可在 NeMo 框架中使用,可以作为预训练检查点用于推理或在新数据集上进行微调。
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#loading-the-model 加载模型
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/nemotron-3.5-asr-streaming-0.6b")
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#streaming-inference 流式推理
您可以使用 NeMo 中的缓存感知流式推理脚本 – NeMo/examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_infer.py
这是一个提示条件化的多语言模型:通过 target_lang 传递目标语言(例如 en-US, es-ES, de-DE),或使用 target_lang=auto 进行自动语言检测。
cd NeMo
python examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_infer.py \
model_path=<path> \
dataset_manifest=<path> \
batch_size=<int> \
target_lang=<language_key_or_auto> \
#语言键(例如 en-US)或 "auto" 进行自动语言检测
att_context_size="[56,13]" \
#将第二个值设置为所需的右上下文,可选值 {0,1,3,6,13}
strip_lang_tags=true \
#true:从文本中移除检测到的语言标签;false:保留在输出中
output_path=<path>
strip_lang_tags 控制输出中如何处理检测到的语言标签。模型会在转录文的终端标点后附加一个语言标签(例如 ``):
strip_lang_tags=false(保留):标签保留在输出中,因此您可以直接从每个话语中读取检测到的语言——适用于混合语言流量和语言标记。strip_lang_tags=true(移除):标签被去除,只保留干净的转录文本——适用于您只需要口语文字的情况。
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#setting-up-streaming-configuration 设置流式配置
延迟由 att_context_size 参数定义,其中 att_context_size = {num_frames_left_context, num_frame_right_context},所有值以 80ms 帧 为单位测量:
- [56, 0]:块大小 = 1(1 × 80ms = 0.08s)
- [56, 1]:块大小 = 2(2 × 80ms = 0.16s)
- [56, 3]:块大小 = 4(4 × 80ms = 0.32s)
- [56, 6]:块大小 = 7(7 × 80ms = 0.56s)
- [56, 13]:块大小 = 14(14 × 80ms = 1.12s)
这里,块大小 = 当前帧 + 右上下文;每个块以非重叠方式处理。
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b#inputs 输入
输入类型: 音频,语言ID
输入格式: wav,字符串
输入参数: 音频为一维(1D),语言ID为一维(1D)
输入其他属性: 最大长度(秒)受GPU内存限制;无需预处理;需要单声道。
通过利用NVIDIA的硬件(如GPU核心)和软件框架(如CUDA库),该模型相比纯CPU方案能够实现更快的训练和推理时间。
相似文章
@kwindla: https://x.com/kwindla/status/2062544580105359686
NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。
nvidia/Nemotron-Labs-Diffusion-14B
NVIDIA发布了Nemotron-Labs-Diffusion,这是一个三模式语言模型系列(3B、8B、14B),支持自回归(AR)、扩散和自推测解码,相比标准AR解码实现了2.7倍到4倍的加速。
nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16 · Hugging Face
NVIDIA发布Nemotron-3-Ultra-550B-A55B,这是一个5500亿参数(550亿活跃参数)的前沿大语言模型,采用混合LatentMoE架构,结合Mamba-2、MoE和注意力层,支持高达100万令牌的上下文长度和可配置的推理模式。它支持11种语言,并针对复杂的智能体工作流、长上下文分析和高精度推理进行了优化。
nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16
NVIDIA 发布 Nemotron 3 Nano Omni,一款 300 亿参数的多模态模型,能够处理视频、音频、图像和文本,并集成推理能力,适用于企业工作流。
nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4
NVIDIA 发布 Nemotron-3-Ultra,一个拥有 5500 亿参数的开源权重模型,采用结合 Mamba-2、MoE 和注意力的混合架构,支持高达 100 万 token 的上下文长度和可配置的推理模式。