标签
Violin是一个开源端到端视频翻译+视频问答工具,整合ASR、LLM翻译和TTS,支持风格调整和内容再创作,可针对视频内容问答。
本文提出了一种基于微积分的框架,利用一阶和二阶导数检验来估计端到端自动语音识别系统的最佳词汇量超参数,并在Librispeech语料库上提升了性能。
Violin是一个开源视频翻译工具,集成了语音识别、大语言模型翻译和语音合成功能,支持30多种语言,提供CLI、Web应用和Claude Code三种使用方式。
介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR,指出了微调中的录音室偏差,并提出了R-MFT以高效提升自发言语性能。
Dolphin-CN-Dialect 是一款支持流式处理的 ASR 模型,通过基于温度的采样策略和重新设计的词元化方案提升了方言识别能力,在更小的模型规模下实现了具有竞争力的性能。
Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集,以防止 benchmaxxing 和测试集污染,同时保留公开数据用于默认的平均 WER 计算。
研究者发布 Voice of India,一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准,揭示地理与人口统计学层面的 ASR 性能差异。
阿里通义实验室发布Fun-ASR 1.5,单模型覆盖30种语言、汉语七大方言及20余种地方口音,典型方言场景字错率较上代下降56.2%,5种方言准确率突破90%。
BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。