speech-recognition

#speech-recognition

我如何为语音转录模型实现ASR偏置 [开源]

Reddit r/LocalLLaMA ↗ · 2026-06-11

本文讲解了如何为语音转录模型实现ASR偏置（ASR biasing），并借助Groq和本地模型的示例进行说明，同时介绍了集成该功能的开源项目Freestyle。

0 人收藏 0 人点赞

#speech-recognition

预训练的自监督语音模型能够识别未见过的辅音

arXiv cs.CL ↗ · 2026-06-11 缓存

本文研究了预训练的自监督语音模型（如Wav2Vec2和HuBERT）是否能够准确识别咔嗒辅音（click consonants），这些辅音在训练数据中较为罕见，通过在科伊桑语言（Khoisan languages）上进行微调来测试。结果表明，这些模型识别咔嗒辅音的准确率高于非咔嗒辅音，表明它们能够泛化到不常见的音素。

0 人收藏 0 人点赞

#speech-recognition

VTT for Mac

Product Hunt ↗ · 2026-06-11

VTT for Mac 是一款适用于 macOS 的语音转文字工具，提供完全设备端处理的选项以保护隐私。

0 人收藏 0 人点赞

#speech-recognition

尝试对谷歌新的设备端听写模型（Eloquent）进行基准测试，但基本做不到

Reddit r/LocalLLaMA ↗ · 2026-06-10

一位用户尝试对谷歌使用专有模型的新设备端听写应用Eloquent进行基准测试，发现它经常漏词或返回不完整的转录文本，只有在完整输出时准确率才有竞争力。作者推测底层的聊天式模型有时拒绝进行转录。

0 人收藏 0 人点赞

#speech-recognition

@cohere：我们的开源语音识别模型 Cohere Transcribe 在新的 @huggingface 远场ASR基准测试中排名第一。

X AI KOLs Following ↗ · 2026-06-10 缓存

Cohere Transcribe 是一款开源语音识别模型，在 Hugging Face 新的远场ASR基准测试中荣获第一名。

0 人收藏 0 人点赞

#speech-recognition

自监督语音识别模型中的说话人群体编码

arXiv cs.CL ↗ · 2026-06-10 缓存

研究自监督语音识别模型如何跨层编码说话人群体信息（性别、年龄、方言、民族、母语者状态），以及针对ASR或说话人识别等任务的微调如何影响这种编码。

0 人收藏 0 人点赞

#speech-recognition

我对Parakeet 0.6B进行了医学ASR微调——开放权重，本地运行于Mac/CUDA/CPU

Reddit r/LocalLLaMA ↗ · 2026-06-09

Omi Health创始人微调了NVIDIA的Parakeet TDT 0.6B用于医学ASR，发布了开放权重的模型Omi Med STT v1，在本地Mac、CUDA或CPU上运行时实现了有竞争力的医学WER。

0 人收藏 0 人点赞

#speech-recognition

基准测试：仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]

Reddit r/MachineLearning ↗ · 2026-06-05

一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示，ONNX Runtime的推理速度比HF Transformers bfloat16快37%，而GGUF则优先考虑内存效率。

0 人收藏 0 人点赞

#speech-recognition

利用语言特定统计图的领域感知发音错误检测与诊断

arXiv cs.CL ↗ · 2026-06-05 缓存

提出一种利用语言特定统计图构建的领域感知发音错误检测与诊断方法，在L2-ARCTIC基准上达到59.52%的F1分数，优于多个基线模型。

0 人收藏 0 人点赞

#speech-recognition

基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障，可以完全通过内部激活和稀疏自编码器来检测和缓解，无需微调即可大幅降低幻觉率。

0 人收藏 0 人点赞

#speech-recognition

@uniswap12: 微软开源了一个语音 AI，60 分钟长音频一次转写，4 个人同时说话都能搞定 VibeVoice，微软开源，24.8k star，今天才知道这个。录音一键转文字这件事，我之前一直用 Whisper，但它处理长会议录音经常超时，多人说话识别…

X AI KOLs Timeline ↗ · 2026-06-04 缓存

微软开源了语音AI框架VibeVoice，支持60分钟长音频一次性转写、多说话人分离和时间戳标注，同时提供多角色TTS合成能力，底层基于Qwen2.5并配有0.5B轻量实时版本，已在GitHub获得24.8k星标。

0 人收藏 0 人点赞

#speech-recognition

迈向真正多语言ASR：将代码切换ASR泛化到未见过的语言对

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

本文研究了从有限的已见语言对学到的代码切换ASR能力是否可以通过模型合并和域泛化方法泛化到未见过的语言对，结果发现只有有限的迁移。

0 人收藏 0 人点赞

#speech-recognition

LaSR：基于潜在推理的上下文感知语音识别

arXiv cs.CL ↗ · 2026-06-02 缓存

LaSR提出了一种针对上下文感知语音识别的潜在推理训练范式，围绕声学特征对齐思维链监督，以在无额外延迟的情况下提高术语识别能力，在Fun-Audio-Chat上优于标准微调。

0 人收藏 0 人点赞

#speech-recognition

使用滚动缓冲区和单语模型的实时多语言ASR [P]

Reddit r/MachineLearning ↗ · 2026-06-01

一种基于路由的实时多语言ASR方法，使用较小的单语模型并配备回滚机制来处理语言切换，在跨语句代码切换上实现了约13%的词错误率，并将系统开源。

0 人收藏 0 人点赞

#speech-recognition

你的多模态语音模型说我长了一张适合广播的脸

arXiv cs.CL ↗ · 2026-06-01 缓存

本文首次对多模态语音识别模型进行了偏见评估，发现在将人脸与音频配对时，跨性别和种族的准确率存在显著差异，这对AI系统的公平性具有重要意义。

0 人收藏 0 人点赞

#speech-recognition

@badlogicgames: 一个很棒的项目：parakeet.cpp https://github.com/mudler/parakeet.cpp… 基于GGML的parakeet推理管道…

X AI KOLs Following ↗ · 2026-05-31 缓存

parakeet.cpp 是一个快速、轻依赖的C++17推理管道，用于NVIDIA的NeMo Parakeet语音识别模型，基于ggml构建。它能实现与NeMo字节相同的转录结果，并在CPU和GPU上显著提升速度。

0 人收藏 0 人点赞

#speech-recognition

转录儿童语音：ASR性能与获取可靠的正字法转写

arXiv cs.CL ↗ · 2026-05-29 缓存

这篇论文评估了九种ASR模型（Whisper、Parakeet、Wav2Vec2）在荷兰语儿童语音数据集JASMIN和DART上的表现，发现微调后的Whisper-medium取得了最佳性能（在JASMIN上WER为5.54%，在DART上为70.37%）。它还提出了一种选择方法，能够以高精度自动识别发音正确的录音片段，从而减少人工验证的需求。

0 人收藏 0 人点赞

#speech-recognition