speech-recognition

#speech-recognition

预训练的自监督语音模型能够识别未见过的辅音

arXiv cs.CL ↗ · 2026-06-11 缓存

本文研究了预训练的自监督语音模型（如Wav2Vec2和HuBERT）是否能够准确识别咔嗒辅音（click consonants），这些辅音在训练数据中较为罕见，通过在科伊桑语言（Khoisan languages）上进行微调来测试。结果表明，这些模型识别咔嗒辅音的准确率高于非咔嗒辅音，表明它们能够泛化到不常见的音素。

0 人收藏 0 人点赞

#speech-recognition

VTT for Mac

Product Hunt ↗ · 2026-06-11

VTT for Mac 是一款适用于 macOS 的语音转文字工具，提供完全设备端处理的选项以保护隐私。

0 人收藏 0 人点赞

#speech-recognition

尝试对谷歌新的设备端听写模型（Eloquent）进行基准测试，但基本做不到

Reddit r/LocalLLaMA ↗ · 2026-06-10

一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试，发现它经常漏词或返回不完整的转录文本，只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。

0 人收藏 0 人点赞

#speech-recognition

@cohere：我们的开源语音识别模型 Cohere Transcribe 在新的 @huggingface 远场ASR基准测试中排名第一。

X AI KOLs Following ↗ · 2026-06-10 缓存

Cohere Transcribe 是一款开源语音识别模型，在 Hugging Face 新的远场ASR基准测试中荣获第一名。

0 人收藏 0 人点赞

#speech-recognition

自监督语音识别模型中的说话人群体编码

arXiv cs.CL ↗ · 2026-06-10 缓存

研究自监督语音识别模型如何跨层编码说话人群体信息（性别、年龄、方言、民族、母语者状态），以及针对ASR或说话人识别等任务的微调如何影响这种编码。

0 人收藏 0 人点赞

#speech-recognition

我对Parakeet 0.6B进行了医学ASR微调——开放权重，本地运行于Mac/CUDA/CPU

Reddit r/LocalLLaMA ↗ · 2026-06-09

Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR，发布了开放权重的模型Omi Med STT v1，在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。

0 人收藏 0 人点赞

#speech-recognition

基准测试：仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]

Reddit r/MachineLearning ↗ · 2026-06-05

一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示，ONNX Runtime的推理速度比HF Transformers bfloat16快37%，而GGUF则优先考虑内存效率。

0 人收藏 0 人点赞

#speech-recognition

利用语言特定统计图的领域感知发音错误检测与诊断

arXiv cs.CL ↗ · 2026-06-05 缓存

提出一种利用语言特定统计图构建的领域感知发音错误检测与诊断方法，在L2-ARCTIC基准上达到59.52%的F1分数，优于多个基线模型。

0 人收藏 0 人点赞

#speech-recognition

基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障，可以完全通过内部激活和稀疏自编码器来检测和缓解，无需微调即可大幅降低幻觉率。

0 人收藏 0 人点赞

#speech-recognition

@uniswap12: 微软开源了一个语音 AI，60 分钟长音频一次转写，4 个人同时说话都能搞定 VibeVoice，微软开源，24.8k star，今天才知道这个。录音一键转文字这件事，我之前一直用 Whisper，但它处理长会议录音经常超时，多人说话识别…

X AI KOLs Timeline ↗ · 2026-06-04 缓存

微软开源了语音AI框架VibeVoice，支持60分钟长音频一次性转写、多说话人分离和时间戳标注，同时提供多角色TTS合成能力，底层基于Qwen2.5并配有0.5B轻量实时版本，已在GitHub获得24.8k星标。

0 人收藏 0 人点赞

#speech-recognition

迈向真正多语言ASR：将代码切换ASR泛化到未见过的语言对

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

本文研究了从有限的已见语言对学到的代码切换ASR能力是否可以通过模型合并和域泛化方法泛化到未见过的语言对，结果发现只有有限的迁移。

0 人收藏 0 人点赞

#speech-recognition

LaSR：基于潜在推理的上下文感知语音识别

arXiv cs.CL ↗ · 2026-06-02 缓存

LaSR提出了一种针对上下文感知语音识别的潜在推理训练范式，围绕声学特征对齐思维链监督，以在无额外延迟的情况下提高术语识别能力，在Fun-Audio-Chat上优于标准微调。

0 人收藏 0 人点赞

#speech-recognition

使用滚动缓冲区和单语模型的实时多语言ASR [P]

Reddit r/MachineLearning ↗ · 2026-06-01

一种基于路由的实时多语言ASR方法，使用较小的单语模型并配备回滚机制来处理语言切换，在跨语句代码切换上实现了约13%的词错误率，并将系统开源。

0 人收藏 0 人点赞

#speech-recognition

你的多模态语音模型说我长了一张适合广播的脸

arXiv cs.CL ↗ · 2026-06-01 缓存

本文首次对多模态语音识别模型进行了偏见评估，发现在将人脸与音频配对时，跨性别和种族的准确率存在显著差异，这对AI系统的公平性具有重要意义。

0 人收藏 0 人点赞

#speech-recognition

@badlogicgames: 一个很棒的项目：parakeet.cpp https://github.com/mudler/parakeet.cpp… 基于GGML的parakeet推理管道…

X AI KOLs Following ↗ · 2026-05-31 缓存

parakeet.cpp 是一个快速、轻依赖的C++17推理管道，用于NVIDIA的NeMo Parakeet语音识别模型，基于ggml构建。它能实现与NeMo字节相同的转录结果，并在CPU和GPU上显著提升速度。

0 人收藏 0 人点赞

#speech-recognition

转录儿童语音：ASR性能与获取可靠的正字法转写

arXiv cs.CL ↗ · 2026-05-29 缓存

这篇论文评估了九种ASR模型（Whisper、Parakeet、Wav2Vec2）在荷兰语儿童语音数据集JASMIN和DART上的表现，发现微调后的Whisper-medium取得了最佳性能（在JASMIN上WER为5.54%，在DART上为70.37%）。它还提出了一种选择方法，能够以高精度自动识别发音正确的录音片段，从而减少人工验证的需求。

0 人收藏 0 人点赞

#speech-recognition

面向口语语言处理任务的机器人-患者与医生-患者医疗对话数据集

arXiv cs.AI ↗ · 2026-05-27 缓存

本文介绍了MeDial-Speech，一个用于口语语言处理的机器人-患者与医生-患者医疗对话数据集，并在句子选择基准上评估了三个大型语言模型，发现Claude Sonnet 4最为准确。

0 人收藏 0 人点赞

#speech-recognition

越南语音中方言变化的语音建模

arXiv cs.CL ↗ · 2026-05-26 缓存

本文提出了一种方言感知的语音框架，用于建模越南语自动语音识别（ASR）中的语音变化，将音节分解为结构化组件，并将其映射到特定方言的国际音标（IPA）表示。该方法在UIT-ViMD多方言数据集上，以更少的参数且无需外部预训练，匹配了预训练基线的性能。

0 人收藏 0 人点赞

#speech-recognition

面向中英文混合语音识别的音频大语言模型直接偏好优化

arXiv cs.CL ↗ · 2026-05-26 缓存

本文应用直接偏好优化（DPO）来对齐音频大语言模型，以转录中英文混合语音，在分布内实现了高达89.6%的MER降低，在分布外实现了20%的降低。它识别出三种失败模式——语言遗漏、翻译替代转录以及幻觉——并表明基于偏好的对齐能有效激发多语言音频大语言模型的正确混合转写行为。

0 人收藏 0 人点赞

#speech-recognition

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR，一个基于 Qwen3-ASR 构建的完全开源 ASR 模型，通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化，在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降，且仅 1.7B 参数可在消费级硬件高效推理。

0 人收藏 0 人点赞

speech-recognition

提交意见反馈