@DataChaz：@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型，它彻底改变了本地语音处理的计算方式……

X AI KOLs Timeline 2026/06/23 09:41 模型

speech-recognition open-source real-time nvidia asr streaming lightweight

摘要

NVIDIA 悄然发布了 Nemotron-3.5-ASR，这是一个轻量级、参数规模为 0.6B 的开源语音识别模型，专为实时流式传输设计，支持 40 多种语言、低延迟和缓存感知架构。

@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型，它彻底改变了本地语音处理管线的计算方式。 Nemotron-3.5-ASR 是一个参数规模为 0.6B 的开源模型，专门为实时流式传输构建。它的优秀之处： → 支持 40 多种语言 → 缓存感知架构（消除了冗余音频计算） → 可配置延迟（低至 80ms 的块大小） → 自动输出带有优美标点和大写格式的文本由于它非常轻量，你无需依赖大规模的 H100 集群。它在 CPU 或广泛可用的 L40S GPU 上都能出色地扩展。在最低延迟设置下，它可以处理比之前 1.1B 参数缓冲模型多约 17 倍的并发流。对于构建智能体管线的开发者来说，这是一次巨大的胜利：你现在拥有了本地、离线的语音处理能力，它更轻量、明显更快，并且将数据安全地保留在你的安全边界内。 100% 免费且开源。仓库和权重见下方 ↓

查看原文

查看缓存全文

缓存时间: 2026/06/23 14:09

@NVIDIA 刚刚悄然发布了一款令人印象深刻的语音识别模型，彻底改变了本地语音处理管线的计算逻辑。

Nemotron-3.5-ASR 是一个 0.6B 参数的开源模型，专为实时流式处理而设计。

它的出色之处在于： → 支持 40+ 种语言 → 缓存感知架构（消除了冗余的音频计算） → 可配置延迟（最低可达 80ms 分片大小） → 自动输出精美标点且首字母大写的文本

由于它极其轻量，你不再需要依赖庞大的 H100 集群。

在 CPU 或广泛可用的 L40S GPU 上，它的扩展表现同样出色。

在最低延迟设置下，它能够处理约 17 倍于此前 1.1B 缓冲模型的并发流。

对于构建智能体管线的开发者来说，这是一场巨大的胜利：

你现在拥有了本地、离线的语音处理能力，更轻量、明显更快，并且数据能安全地保留在你的安全边界内。

100% 免费且开源。

仓库和权重见 ↓

@DataChaz：@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型，它彻底改变了本地语音处理的计算方式……

相似文章

nvidia/nemotron-3.5-asr-streaming-0.6b

@kwindla: https://x.com/kwindla/status/2062544580105359686

NVIDIA 发布 Nemotron 3 Nano Omni 模型，统一视觉、音频和语言处理，助力 AI Agent 效率提升高达 9 倍

@DataChaz：@NVIDIA 刚刚发布了 LocateAnything，通过修复一个核心瓶颈使物体检测速度提升约10倍：模型如何…

NVIDIA 发布 Nemotron 3 Nano Omni：面向文档、音频和视频智能体的长上下文多模态智能

提交意见反馈