@DataChaz:@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型,它彻底改变了本地语音处理的计算方式……

X AI KOLs Timeline 模型

摘要

NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。

@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型,它彻底改变了本地语音处理管线的计算方式。 Nemotron-3.5-ASR 是一个参数规模为 0.6B 的开源模型,专门为实时流式传输构建。 它的优秀之处: → 支持 40 多种语言 → 缓存感知架构(消除了冗余音频计算) → 可配置延迟(低至 80ms 的块大小) → 自动输出带有优美标点和大写格式的文本 由于它非常轻量,你无需依赖大规模的 H100 集群。 它在 CPU 或广泛可用的 L40S GPU 上都能出色地扩展。 在最低延迟设置下,它可以处理比之前 1.1B 参数缓冲模型多约 17 倍的并发流。 对于构建智能体管线的开发者来说,这是一次巨大的胜利: 你现在拥有了本地、离线的语音处理能力,它更轻量、明显更快,并且将数据安全地保留在你的安全边界内。 100% 免费且开源。 仓库和权重见下方 ↓
查看原文
查看缓存全文

缓存时间: 2026/06/23 14:09

@NVIDIA 刚刚悄然发布了一款令人印象深刻的语音识别模型,彻底改变了本地语音处理管线的计算逻辑。

Nemotron-3.5-ASR 是一个 0.6B 参数的开源模型,专为实时流式处理而设计。

它的出色之处在于: → 支持 40+ 种语言 → 缓存感知架构(消除了冗余的音频计算) → 可配置延迟(最低可达 80ms 分片大小) → 自动输出精美标点且首字母大写的文本

由于它极其轻量,你不再需要依赖庞大的 H100 集群。

在 CPU 或广泛可用的 L40S GPU 上,它的扩展表现同样出色。

在最低延迟设置下,它能够处理约 17 倍于此前 1.1B 缓冲模型的并发流。

对于构建智能体管线的开发者来说,这是一场巨大的胜利:

你现在拥有了本地、离线的语音处理能力,更轻量、明显更快,并且数据能安全地保留在你的安全边界内。

100% 免费且开源。

仓库和权重见 ↓

相似文章

nvidia/nemotron-3.5-asr-streaming-0.6b

Hugging Face Models Trending

NVIDIA 发布 Nemotron 3.5 ASR,这是一个6亿参数的多语言流式语音识别模型,支持40种语言区域,采用缓存感知的FastConformer-RNNT架构实现低延迟转录。该模型支持可配置的块大小,并已在OpenMDW-1.1许可证下准备商业化使用。

@kwindla: https://x.com/kwindla/status/2062544580105359686

X AI KOLs Timeline

NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。