asr

#asr

自监督语音识别模型中的说话人群体编码

arXiv cs.CL ↗ · 4小时前缓存

研究自监督语音识别模型如何跨层编码说话人群体信息（性别、年龄、方言、民族、母语者状态），以及针对ASR或说话人识别等任务的微调如何影响这种编码。

0 人收藏 0 人点赞

#asr

语音助手能处理双语客户吗？前沿ASR在代码切换语音上的基准测试

Hugging Face Blog ↗ · 12小时前缓存

ServiceNow AI 发布了一个基准测试和数据集，用于评估自动语音识别（ASR）在跨四种语言对（西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语）的企业HR和IT场景中的代码切换语音上的表现，发现当前前沿ASR模型在代码切换方面仍存在困难，导致错误率较高。

0 人收藏 0 人点赞

#asr

用于鲁棒代码切换语音识别的基于LLM生成的近失对比训练

arXiv cs.CL ↗ · 2天前缓存

提出了一种POI感知的对比训练框架，利用LLM生成的近失假设来增强ASR在代码切换区域的鲁棒性，在两个基准测试上实现了一致的错误率降低。

0 人收藏 0 人点赞

#asr

基准测试：仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]

Reddit r/MachineLearning ↗ · 4天前

一项针对仅CPU硬件上Parakeet TDT 0.6B ASR模型的ONNX Runtime、HF Transformers与GGUF的基准测试显示，ONNX Runtime的推理速度比HF Transformers bfloat16快37%，而GGUF则优先考虑内存效率。

0 人收藏 0 人点赞

#asr

在构建 AI 辅导系统时，延迟比模型选择更重要

Reddit r/AI_Agents ↗ · 5天前

一位从业者认为，在 AI 辅导系统中，语音启动延迟才是关键因素，而非模型的选择。他建议将语音启动延迟控制在 1 秒以内，并强调流式 TTS 是优化效果最显著的手段。文章梳理了从 ASR 到 TTS 再到虚拟形象同步的完整处理链路，并指出延迟叠加最严重的环节。

0 人收藏 0 人点赞

#asr

@uniswap12: 微软开源了一个语音 AI，60 分钟长音频一次转写，4 个人同时说话都能搞定 VibeVoice，微软开源，24.8k star，今天才知道这个。录音一键转文字这件事，我之前一直用 Whisper，但它处理长会议录音经常超时，多人说话识别…

X AI KOLs Timeline ↗ · 5天前缓存

微软开源了语音AI框架VibeVoice，支持60分钟长音频一次性转写、多说话人分离和时间戳标注，同时提供多角色TTS合成能力，底层基于Qwen2.5并配有0.5B轻量实时版本，已在GitHub获得24.8k星标。

0 人收藏 0 人点赞

#asr

@yhslgg: 兄弟们，再分享一个开源视频翻译工具——pyVideoTrans，GitHub 17700 星，做视频搬运和本地化的必备！一句话：一个视频丢进去，自动走完语音识别→字幕翻译→AI配音→视频合成整条流水线，出来就是另一种语言的完整视频。核…

X AI KOLs Timeline ↗ · 2026-06-03 缓存

pyVideoTrans 是一个开源视频翻译工具，支持自动语音识别、字幕翻译、AI 配音和视频合成，集成了多种 ASR、翻译和 TTS 引擎，适合跨语言视频制作和本地化。

0 人收藏 0 人点赞

#asr

SALSA：通过学习的引导激活向量实现语音感知LLM的自适应

arXiv cs.CL ↗ · 2026-06-02 缓存

SALSA提出了一种轻量级自适应方法，用于语音感知的大语言模型，通过监督目标学习逐层引导向量，在域外语音基准上取得了显著改进（相对提升高达46.8%），并表明引导编码器层（尤其是较深层）比修改LLM主干更有效。

0 人收藏 0 人点赞

#asr

@badlogicgames: 一个很棒的项目：parakeet.cpp https://github.com/mudler/parakeet.cpp… 基于GGML的parakeet推理管道…

X AI KOLs Following ↗ · 2026-05-31 缓存

parakeet.cpp 是一个快速、轻依赖的C++17推理管道，用于NVIDIA的NeMo Parakeet语音识别模型，基于ggml构建。它能实现与NeMo字节相同的转录结果，并在CPU和GPU上显著提升速度。

0 人收藏 0 人点赞

#asr

转录儿童语音：ASR性能与获取可靠的正字法转写

arXiv cs.CL ↗ · 2026-05-29 缓存

这篇论文评估了九种ASR模型（Whisper、Parakeet、Wav2Vec2）在荷兰语儿童语音数据集JASMIN和DART上的表现，发现微调后的Whisper-medium取得了最佳性能（在JASMIN上WER为5.54%，在DART上为70.37%）。它还提出了一种选择方法，能够以高精度自动识别发音正确的录音片段，从而减少人工验证的需求。

0 人收藏 0 人点赞

#asr

越南语音中方言变化的语音建模

arXiv cs.CL ↗ · 2026-05-26 缓存

本文提出了一种方言感知的语音框架，用于建模越南语自动语音识别（ASR）中的语音变化，将音节分解为结构化组件，并将其映射到特定方言的国际音标（IPA）表示。该方法在UIT-ViMD多方言数据集上，以更少的参数且无需外部预训练，匹配了预训练基线的性能。

0 人收藏 0 人点赞

#asr

@MaxForAI: 如果你在做语音Agent，你应该试一下这个项目来自南洋理工、新国立和上海 AI Lab的团队发布了：Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建，目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline ↗ · 2026-05-22 缓存

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR，一个基于 Qwen3-ASR 构建的完全开源 ASR 模型，通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化，在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降，且仅 1.7B 参数可在消费级硬件高效推理。

0 人收藏 0 人点赞

#asr

语音识别中的Convex低资源口音鲁棒语言检测

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

本文介绍了CLD，一种基于凸优化的轻量级语言检测头（用于ASR），在不到100个训练样本下实现97-98%的准确率，同时将计算成本降低13倍，解决了5种语言和24种子方言的口音和方言鲁棒性问题。

0 人收藏 0 人点赞

#asr

StepAudio 2.5 技术报告

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

StepAudio 2.5 是一个统一的音频-语言模型，通过利用针对任务定制的基于人类反馈的强化学习来优化共享表示，在自动语音识别（ASR）、文本转语音（TTS）和实时口语交互方面取得了最先进的结果。

0 人收藏 0 人点赞

#asr

@AdinaYakup: Mega-ASR https://huggingface.co/zhifeixie/Mega-ASR… 1.7B 参数，Apache 2.0，专为噪声/混响/截断/重叠说话人场景设计…

X AI KOLs Following ↗ · 2026-05-21 缓存

Mega-ASR 是一个1.7B参数的鲁棒ASR模型，采用Apache 2.0许可，专为噪声、混响和重叠语音设计，并配备音频质量路由器来处理干净音频和降质音频。

0 人收藏 0 人点赞

#asr

SCRIBE：面向Indic ASR的诊断评估与富转录模型

arXiv cs.CL ↗ · 2026-05-21 缓存

SCRIBE 是一个用于自动语音识别的诊断评估框架，为印度语言提供分类错误分解，并发布了 Hindi、Malayalam 和 Kannada 的基准和开源权重富转录模型。

0 人收藏 0 人点赞

#asr

@XieZhifei14110: 别再使用Whisper做语音识别了！开源Mega-ASR——首个全场景SOTA工业级ASR模型，专为……

X AI KOLs Timeline ↗ · 2026-05-20 缓存

开源Mega-ASR，一个全场景SOTA工业级ASR模型，专为远场、噪声等复杂音频环境设计，在真实世界基准测试中比现有开源和闭源模型性能高出10-30%。

0 人收藏 0 人点赞

#asr

@gkxspace: 我每月 AI 订阅两三千，其中有些是TTS、ASR之类的，主流的几家都挺贵，API协议也都不一样我一直在想有没有可以一个套餐做到：语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码可算找到了一个活菩萨，阶跃星辰的 S…

X AI KOLs Timeline ↗ · 2026-05-20 缓存

阶跃星辰推出Step Plan订阅服务，月费6.99美元，整合了LLM、TTS、ASR、图像生成等多种AI模型，支持OpenAI SDK直连，可用于语音复刻、会议转写、AI播客生成等场景。

0 人收藏 0 人点赞

#asr

商业ASR系统在代码切换语音上的基准测试：阿拉伯语、波斯语和德语

arXiv cs.CL ↗ · 2026-05-20 缓存

本文提出了一个基准测试，评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能，使用两阶段管道为每个语言对选择300个样本，并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER（13.2%）和最高的BERTScore（0.936），并提供公开数据集。

0 人收藏 0 人点赞

#asr

Mega-ASR: 通过扩展真实世界声学模拟实现 In-the-wild^2 语音识别

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

Mega-ASR 提出通过扩展真实世界声学模拟来改进在极具挑战性的野外条件下的自动语音识别，旨在缩小实验室与真实环境之间的性能差距。

0 人收藏 0 人点赞

asr

提交意见反馈