asr

标签

#asr

SCRIBE：面向Indic ASR的诊断评估与富转录模型

arXiv cs.CL ↗ · 2026-05-21 缓存

SCRIBE 是一个用于自动语音识别的诊断评估框架，为印度语言提供分类错误分解，并发布了 Hindi、Malayalam 和 Kannada 的基准和开源权重富转录模型。

0 人收藏 0 人点赞

#asr

@XieZhifei14110: 别再使用Whisper做语音识别了！开源Mega-ASR——首个全场景SOTA工业级ASR模型，专为……

X AI KOLs Timeline ↗ · 2026-05-20 缓存

开源Mega-ASR，一个全场景SOTA工业级ASR模型，专为远场、噪声等复杂音频环境设计，在真实世界基准测试中比现有开源和闭源模型性能高出10-30%。

0 人收藏 0 人点赞

#asr

@gkxspace: 我每月 AI 订阅两三千，其中有些是TTS、ASR之类的，主流的几家都挺贵，API协议也都不一样我一直在想有没有可以一个套餐做到：语音复刻、会议转写、AI 播客生成、实时语音问答、语音输入、写代码可算找到了一个活菩萨，阶跃星辰的 S…

X AI KOLs Timeline ↗ · 2026-05-20 缓存

阶跃星辰推出Step Plan订阅服务，月费6.99美元，整合了LLM、TTS、ASR、图像生成等多种AI模型，支持OpenAI SDK直连，可用于语音复刻、会议转写、AI播客生成等场景。

0 人收藏 0 人点赞

#asr

商业ASR系统在代码切换语音上的基准测试：阿拉伯语、波斯语和德语

arXiv cs.CL ↗ · 2026-05-20 缓存

本文提出了一个基准测试，评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能，使用两阶段管道为每个语言对选择300个样本，并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER（13.2%）和最高的BERTScore（0.936），并提供公开数据集。

0 人收藏 0 人点赞

#asr

Mega-ASR: 通过扩展真实世界声学模拟实现 In-the-wild^2 语音识别

Hugging Face Daily Papers ↗ · 2026-05-19 缓存

Mega-ASR 提出通过扩展真实世界声学模拟来改进在极具挑战性的野外条件下的自动语音识别，旨在缩小实验室与真实环境之间的性能差距。

0 人收藏 0 人点赞

#asr

nvidia/nemotron-3.5-asr-streaming-0.6b

Hugging Face Models Trending ↗ · 2026-05-15 缓存

NVIDIA 发布 Nemotron 3.5 ASR，这是一个6亿参数的多语言流式语音识别模型，支持40种语言区域，采用缓存感知的FastConformer-RNNT架构实现低延迟转录。该模型支持可配置的块大小，并已在OpenMDW-1.1许可证下准备商业化使用。

0 人收藏 0 人点赞

#asr

@FeitengLi: 其实这些问题都能很好的解决了 1. 扔掉 whisper，换 ASR 模型，Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择，whisper 幻觉多也要求 30s片段，Qwen3-ASR 塞更长的音频识别越准确，最大支持 20…

X AI KOLs Timeline ↗ · 2026-05-15 缓存

推荐使用Qwen3-ASR替代Whisper以减少幻觉，使用LattifAI工具进行精确的音文本对齐和字幕生成，并介绍自己的OmniVAD-Kit项目用于语音活动检测。

0 人收藏 0 人点赞

#asr

@aigclink: 一个开源的端到端视频翻译+视频问答Skill：violin，亮点是不只是直译，而是内容再创作的设想它把ASR、LLM翻译和TTS整合成了一条无缝管道视频Skill，这三个环节自动衔接，输入视频即得到翻译后的配音视频翻译风格可调，比如说…

X AI KOLs Timeline ↗ · 2026-05-15

Violin是一个开源端到端视频翻译+视频问答工具，整合ASR、LLM翻译和TTS，支持风格调整和内容再创作，可针对视频内容问答。

0 人收藏 0 人点赞

#asr

基于微积分的端到端自动语音识别词汇量确定框架

arXiv cs.CL ↗ · 2026-05-15 缓存

本文提出了一种基于微积分的框架，利用一阶和二阶导数检验来估计端到端自动语音识别系统的最佳词汇量超参数，并在Librispeech语料库上提升了性能。

0 人收藏 0 人点赞

#asr

@berryxia: 兄弟们，这个可以啊！赶紧装起来！ Kevin Lin，牛津大学博士后，前Meta和Microsoft研究员，刚刚把Violin这个开源视频翻译Skill放了出来。视频已经是互联网绝对主流的内容形式。可绝大多数高质量讲座、演讲、播客却被…

X AI KOLs Timeline ↗ · 2026-05-15 缓存

Violin是一个开源视频翻译工具，集成了语音识别、大语言模型翻译和语音合成功能，支持30多种语言，提供CLI、Web应用和Claude Code三种使用方式。

0 人收藏 0 人点赞

#asr

Vividh-ASR：面向稳健印度语音识别的复杂度分层基准与优化动态

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR，指出了微调中的录音室偏差，并提出了R-MFT以高效提升自发言语性能。

0 人收藏 0 人点赞

#asr

Dolphin-CN-Dialect：中文方言识别的重要性

arXiv cs.CL ↗ · 2026-05-12 缓存

Dolphin-CN-Dialect 是一款支持流式处理的 ASR 模型，通过基于温度的采样策略和重新设计的词元化方案提升了方言识别能力，在更小的模型规模下实现了具有竞争力的性能。

0 人收藏 0 人点赞

#asr

向 Open ASR Leaderboard 添加反 Benchmaxxing 机制

Hugging Face Blog ↗ · 2026-05-06 缓存

Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集，以防止 benchmaxxing 和测试集污染，同时保留公开数据用于默认的平均 WER 计算。

0 人收藏 0 人点赞

#asr

Voice of India：面向印度真实场景的大规模语音识别基准

arXiv cs.CL ↗ · 2026-04-22 缓存

研究者发布 Voice of India，一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准，揭示地理与人口统计学层面的 ASR 性能差异。

0 人收藏 0 人点赞

#asr

@aigclink: 阿里通义实验室最新发布了款ASR：Fun-ASR 1.5，核心能力：方言工业级可用单模型即可无缝覆盖30种语言、汉语七大方言体系及20+ 地方口音，古诗词吟诵也能精准转写典型方言场景CER相对上代下降56.2%，有5种方言准确率破 9…

X AI KOLs Timeline ↗ · 2026-04-20 缓存

阿里通义实验室发布Fun-ASR 1.5，单模型覆盖30种语言、汉语七大方言及20余种地方口音，典型方言场景字错率较上代下降56.2%，5种方言准确率突破90%。

0 人收藏 0 人点赞

#asr

BlasBench：爱尔兰语语音识别开放基准

arXiv cs.CL ↗ · 2026-04-20 缓存

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准，采用爱尔兰语感知的文本规范化，保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试，揭示了显著的泛化差距，并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈