@DataChaz:@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型,它彻底改变了本地语音处理的计算方式……
摘要
NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。
查看缓存全文
缓存时间: 2026/06/23 14:09
@NVIDIA 刚刚悄然发布了一款令人印象深刻的语音识别模型,彻底改变了本地语音处理管线的计算逻辑。
Nemotron-3.5-ASR 是一个 0.6B 参数的开源模型,专为实时流式处理而设计。
它的出色之处在于: → 支持 40+ 种语言 → 缓存感知架构(消除了冗余的音频计算) → 可配置延迟(最低可达 80ms 分片大小) → 自动输出精美标点且首字母大写的文本
由于它极其轻量,你不再需要依赖庞大的 H100 集群。
在 CPU 或广泛可用的 L40S GPU 上,它的扩展表现同样出色。
在最低延迟设置下,它能够处理约 17 倍于此前 1.1B 缓冲模型的并发流。
对于构建智能体管线的开发者来说,这是一场巨大的胜利:
你现在拥有了本地、离线的语音处理能力,更轻量、明显更快,并且数据能安全地保留在你的安全边界内。
100% 免费且开源。
仓库和权重见 ↓
相似文章
nvidia/nemotron-3.5-asr-streaming-0.6b
NVIDIA 发布 Nemotron 3.5 ASR,这是一个6亿参数的多语言流式语音识别模型,支持40种语言区域,采用缓存感知的FastConformer-RNNT架构实现低延迟转录。该模型支持可配置的块大小,并已在OpenMDW-1.1许可证下准备商业化使用。
@kwindla: https://x.com/kwindla/status/2062544580105359686
NVIDIA 发布了 Nemotron 3.5 ASR,这是一款开源的多语言语音转文字模型,在测试中延迟最低,提供多语言和纯英文两个版本,非常适合语音助手和自托管部署场景。
NVIDIA 发布 Nemotron 3 Nano Omni 模型,统一视觉、音频和语言处理,助力 AI Agent 效率提升高达 9 倍
NVIDIA 宣布推出 Nemotron 3 Nano Omni,这是一款开放的多模态模型,通过统一视觉、音频和语言处理,使 AI Agent 能够更快、更高效地运行。与其他开放式的 Omni 模型相比,其吞吐量最高可提高 9 倍。
@DataChaz:@NVIDIA 刚刚发布了 LocateAnything,通过修复一个核心瓶颈使物体检测速度提升约10倍:模型如何…
NVIDIA发布了LocateAnything,这是一个开源模型,通过同时预测所有坐标而非顺序预测,实现了约10倍的物体检测速度提升,在单块H100上达到12.7 FPS,并超越了320亿参数模型。
NVIDIA 发布 Nemotron 3 Nano Omni:面向文档、音频和视频智能体的长上下文多模态智能
NVIDIA 发布 Nemotron 3 Nano Omni,这是一款新型长上下文多模态 AI 模型,能够以高准确性和高效率处理文档、音频、视频和文本。