asr

标签

Cards List
#asr

@aigclink: 一个开源的端到端视频翻译+视频问答Skill:violin,亮点是不只是直译,而是内容再创作的设想 它把ASR、LLM翻译和TTS整合成了一条无缝管道视频Skill,这三个环节自动衔接,输入视频即得到翻译后的配音视频 翻译风格可调,比如说…

X AI KOLs Timeline · 10小时前

Violin是一个开源端到端视频翻译+视频问答工具,整合ASR、LLM翻译和TTS,支持风格调整和内容再创作,可针对视频内容问答。

0 人收藏 0 人点赞
#asr

基于微积分的端到端自动语音识别词汇量确定框架

arXiv cs.CL · 16小时前 缓存

本文提出了一种基于微积分的框架,利用一阶和二阶导数检验来估计端到端自动语音识别系统的最佳词汇量超参数,并在Librispeech语料库上提升了性能。

0 人收藏 0 人点赞
#asr

@berryxia: 兄弟们,这个可以啊!赶紧装起来! Kevin Lin,牛津大学博士后,前Meta和Microsoft研究员,刚刚把Violin这个开源视频翻译Skill放了出来。 视频已经是互联网绝对主流的内容形式。 可绝大多数高质量讲座、演讲、播客却被…

X AI KOLs Timeline · 19小时前 缓存

Violin是一个开源视频翻译工具,集成了语音识别、大语言模型翻译和语音合成功能,支持30多种语言,提供CLI、Web应用和Claude Code三种使用方式。

0 人收藏 0 人点赞
#asr

Vividh-ASR:面向稳健印度语音识别的复杂度分层基准与优化动态

Hugging Face Daily Papers · 2天前 缓存

介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR,指出了微调中的录音室偏差,并提出了R-MFT以高效提升自发言语性能。

0 人收藏 0 人点赞
#asr

Dolphin-CN-Dialect:中文方言识别的重要性

arXiv cs.CL · 3天前 缓存

Dolphin-CN-Dialect 是一款支持流式处理的 ASR 模型,通过基于温度的采样策略和重新设计的词元化方案提升了方言识别能力,在更小的模型规模下实现了具有竞争力的性能。

0 人收藏 0 人点赞
#asr

向 Open ASR Leaderboard 添加反 Benchmaxxing 机制

Hugging Face Blog · 2026-05-06 缓存

Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集,以防止 benchmaxxing 和测试集污染,同时保留公开数据用于默认的平均 WER 计算。

0 人收藏 0 人点赞
#asr

Voice of India:面向印度真实场景的大规模语音识别基准

arXiv cs.CL · 2026-04-22 缓存

研究者发布 Voice of India,一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准,揭示地理与人口统计学层面的 ASR 性能差异。

0 人收藏 0 人点赞
#asr

@aigclink: 阿里通义实验室最新发布了款ASR:Fun-ASR 1.5,核心能力:方言工业级可用 单模型即可无缝覆盖30种语言、汉语七大方言体系及20+ 地方口音,古诗词吟诵也能精准转写 典型方言场景CER相对上代下降56.2%,有5种方言准确率破 9…

X AI KOLs Timeline · 2026-04-20 缓存

阿里通义实验室发布Fun-ASR 1.5,单模型覆盖30种语言、汉语七大方言及20余种地方口音,典型方言场景字错率较上代下降56.2%,5种方言准确率突破90%。

0 人收藏 0 人点赞
#asr

BlasBench:爱尔兰语语音识别开放基准

arXiv cs.CL · 2026-04-20 缓存

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈