speech-recognition

标签

Cards List
#speech-recognition

压缩 Whisper large-v3-turbo 至 368 MB 采用 Q3_K 匹配的量化感知训练 — 多语言 WER 结果

Reddit r/openclaw · 20小时前

Whisper large-v3-turbo 已压缩至 368 MB,采用 Q3_K 匹配的量化感知训练,并报告了多语言词错误率结果。

0 人收藏 0 人点赞
#speech-recognition

Whisperian:如果你希望在Android上使用麦克风配合本地ASR模型,它是最佳应用之一。该应用也可在Play Store获取。

Reddit r/LocalLLaMA · 昨天

Whisperian是一款Android应用,允许用户使用麦克风配合本地自动语音识别(ASR)模型,且该应用可在Play Store获取。

0 人收藏 0 人点赞
#speech-recognition

低资源多模态翻译:将尼泊尔口语词语转化为情感条件手语虚拟形象

arXiv cs.CL · 3天前 缓存

本文提出了NEST-V1,一个用于从语音输入生成情感条件尼泊尔手语虚拟形象的概念验证多模态框架,在包含50名说话者600个音频样本的数据集上实现了81.1%的ASR准确率和79.21%的情感识别准确率。

0 人收藏 0 人点赞
#speech-recognition

面向ASR错误校正的误差感知TF-IDF检索增强生成

arXiv cs.CL · 4天前 缓存

本文提出了一种基于误差感知TF-IDF检索增强生成的框架,用于校正自动语音识别错误,在波斯语FLEURS数据集上取得了显著的准确率提升,且推理延迟几乎为零。

0 人收藏 0 人点赞
#speech-recognition

在流式ASR中,数据规模而非延迟影响跨语言编码器迁移

arXiv cs.AI · 5天前 缓存

本文研究了数据规模与延迟对流式ASR跨语言迁移的影响,发现多语言初始化的优势受限于数据量而非延迟,且随着目标语言数据的增加而减弱。

0 人收藏 0 人点赞
#speech-recognition

wav2vec 2.0和Whisper关于非裔美国人英语中辅音丛简化现象的逐层探测研究

arXiv cs.CL · 5天前 缓存

本文采用逐层探测的方法,研究wav2vec 2.0和Whisper如何编码非裔美国人英语中的辅音丛简化现象,发现这两个模型均能区分简化形式和规范形式,并保留了底层塞音的线索。

0 人收藏 0 人点赞
#speech-recognition

FFASR排行榜发布:真实场景下的ASR评测

Hugging Face Blog · 5天前 缓存

介绍FFASR排行榜,这是一个开放、社区驱动的基准测试,用于在真实远场声学条件下评估自动语音识别模型,突显了近场和远场场景之间的显著性能差距。

0 人收藏 0 人点赞
#speech-recognition

@DataChaz:@NVIDIA 刚刚悄悄发布了一个极其令人印象深刻的语音识别模型,它彻底改变了本地语音处理的计算方式……

X AI KOLs Timeline · 6天前 缓存

NVIDIA 悄然发布了 Nemotron-3.5-ASR,这是一个轻量级、参数规模为 0.6B 的开源语音识别模型,专为实时流式传输设计,支持 40 多种语言、低延迟和缓存感知架构。

0 人收藏 0 人点赞
#speech-recognition

@FeitengLi: 由 Fable 5 领衔(仅半天)Codex 接力开发历时一周 #EdgeSpeak 正式上线,转发的朋友联系我收邀请码 https://edgespeak.com/zh

X AI KOLs Timeline · 2026-06-21 缓存

EdgeSpeak 桌面端语音转录工具正式上线,搭载本地 Lattice-2 语音大模型,支持离线音视频转录、多种语言和口音,并提供本地 API 接口以便开发者集成。

1 人收藏 0 人点赞
#speech-recognition

@AndrewYNg: 新课程:为你的AI智能体和应用添加语音功能,基于@VocalBridge构建(披露:AI Fund投资组合公司…

X AI KOLs Following · 2026-06-18 缓存

Andrew Ng宣布了一门新课程,关于使用VocalBridge为AI智能体添加语音功能,由其CEO授课。课程涵盖三种集成模式和评估技术,用于构建可靠且低延迟的语音应用。

0 人收藏 0 人点赞
#speech-recognition

ASTRA: 可扩展的下一代ATCO训练模拟器,配备自主Simpilots

arXiv cs.LG · 2026-06-18 缓存

ASTRA 是一款用于空中交通管制操作员的端到端训练模拟器,通过本地化适配的语音模型自动执行模拟飞行员(sim pilot)角色,在新加坡口音的航空语音中大幅降低了词错误率,并整合了AI辅助性能评估。

0 人收藏 0 人点赞
#speech-recognition

@mudler_it:parakeet.cpp 现已在 OpenAI API 背后运行 NVIDIA Parakeet。将任何 OpenAI 客户端指向本地服务器,发送音频,……

X AI KOLs Timeline · 2026-06-17 缓存

parakeet.cpp 能够在本地的 OpenAI API 背后运行 NVIDIA Parakeet ASR,提供预构建的 Docker 镜像,支持 CPU 和 CUDA(包括 arm64),实现带有词级时间戳的实时转录。

0 人收藏 0 人点赞
#speech-recognition

利用双语微调与语言识别改进低资源ASR:一项跨语言评估

arXiv cs.CL · 2026-06-17 缓存

本研究评估了使用语言识别令牌进行双语微调以改进低资源语言ASR的方法,涉及九个多样化的语言对。结果发现,高语言识别准确率是有益的,而在语言识别准确率低的情况下,在推理时提供语言识别令牌可以提升性能。

0 人收藏 0 人点赞
#speech-recognition

嘈杂环境中的语音代理

Reddit r/AI_Agents · 2026-06-16

一家语音公司训练了一个模型,该模型能消除噪声并识别主要说话者,在嘈杂环境中,领先的ASR模型的词错误率降低了50%。

0 人收藏 0 人点赞
#speech-recognition

MoDiCoL:面向鲁棒语音识别的模块化诊断持续学习数据集

arXiv cs.CL · 2026-06-15 缓存

本文介绍了 MoDiCoL,一个用于鲁棒语音识别的模块化诊断持续学习数据集,能够对语言内容、说话人特征和声学环境进行受控分析,并提出了一个持续学习课程,以研究鲁棒性是如何获取、迁移和遗忘的。

0 人收藏 0 人点赞
#speech-recognition

学习听出犹豫:面向非流利感知的连续学习ASR

arXiv cs.CL · 2026-06-15 缓存

本文提出了一种连续学习方法,将非流利标记整合到预训练的ASR模型中,解决了灾难性遗忘问题,并提升了对非流利语音的识别能力。

0 人收藏 0 人点赞
#speech-recognition

@PyTorch: 在他的PyTorch Conference Europe 2026主题演讲中,Patrick von Platen (@MistralAI)讨论了为什么现实世界的……

X AI KOLs Following · 2026-06-12 缓存

在PyTorch Conference Europe 2026上,Mistral AI的Patrick von Platen解释了为什么现实世界的AI交互需要能够处理连续输入并产生连续输出的流式架构,并以Vox Real Time作为实时转录示例。

0 人收藏 0 人点赞
#speech-recognition

@tom_doerr: 以70倍实时速度转录音频 https://github.com/m-bain/whisperX

X AI KOLs Timeline · 2026-06-12 缓存

WhisperX是一个用于快速自动语音识别的工具,提供词级时间戳和说话人分离,使用Whisper large-v2实现70倍实时转录。

0 人收藏 0 人点赞
#speech-recognition

Revi

Product Hunt · 2026-06-12

Revi 是一款在设备上运行的语音听写应用,无需云服务或账户。

0 人收藏 0 人点赞
#speech-recognition

我如何为语音转录模型实现ASR偏置 [开源]

Reddit r/LocalLLaMA · 2026-06-11

本文讲解了如何为语音转录模型实现ASR偏置(ASR biasing),并借助Groq和本地模型的示例进行说明,同时介绍了集成该功能的开源项目Freestyle。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈