迈向类人交互式语音识别:基于智能体修正与语义评估

Hugging Face Daily Papers 论文

摘要

本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。

自动语音识别(ASR)是人机交互的核心组成部分,也是基于大语言模型的助手和智能体日益重要的前端。然而,当前大多数 ASR 系统仍然遵循单轮处理的范式,这与人类通信方式——通过反复澄清和修正来解决误解——存在很大差异。这种不匹配使得一旦发生关键语义错误便难以纠正。同时,诸如词错误率(WER)或字符错误率(CER)等词元级指标无法充分反映此类问题。为解决这些局限,我们将交互式 ASR 定义为多轮优化任务,并提出 Agentic ASR,一种闭环框架,结合了单轮 ASR 前端与语义修正、意图路由以及基于推理的编辑。我们进一步引入了句子级语义错误率(S²ER)——一种基于大语言模型的语义评估指标,以及一个用于可扩展和可复现基准测试的交互式模拟系统。在多语言、命名实体密集及代码切换的基准测试上的实验表明,迭代交互能够持续减少语义错误,并且在 S²ER 上的提升远大于传统的词元级指标。人机对齐与消融研究进一步验证了语义评判器的可靠性以及所提框架的鲁棒性。代码地址:https://interactiveasr.github.io/,在线演示地址:https://i-asr.sjtuxlance.com/
查看原文
查看缓存全文

缓存时间: 2026/06/08 15:16

论文页面 - 迈向类人交互式语音识别:基于智能体校正与语义评估

来源: https://huggingface.co/papers/2605.29430
作者:

,

,

,

,

,

,

,

,

,

摘要

交互式ASR框架融合了语义校正与基于推理的编辑,通过多轮精炼减少语义错误,该框架由新的句子级语义错误率指标和交互式仿真系统验证。

自动语音识别(https://huggingface.co/papers?q=Automatic%20speech%20recognition,ASR)是人机交互的核心组件,也是基于LLM的助手和智能体日益重要的前端。然而,当前大多数ASR系统仍遵循单次通过范式,这与人类通信中通过迭代澄清和精炼解决误解的方式严重脱节。这种不匹配使得一旦出现关键意义错误就很难纠正。同时,WER或CER等词元级指标无法充分反映这一问题。为解决这些局限,我们将交互式ASR定义为多轮精炼(https://huggingface.co/papers?q=multi-turn%20refinement)任务,并提出Agentic ASR这一闭环框架,它结合了单次通过ASR前端与语义校正(https://huggingface.co/papers?q=semantic%20correction)、意图路由(https://huggingface.co/papers?q=intent%20routing)以及基于推理的编辑(https://huggingface.co/papers?q=reasoning-based%20editing)。我们进一步引入句子级语义错误率(https://huggingface.co/papers?q=Sentence-level%20Semantic%20Error%20Rate,S²ER),这是一种基于LLM的语义评估指标,同时配套一个交互式仿真系统(https://huggingface.co/papers?q=Interactive%20Simulation%20System),用于可扩展且可复现的基准测试。在多语言(https://huggingface.co/papers?q=multilingual)、命名实体密集(https://huggingface.co/papers?q=named-entity-intensive)以及代码切换(https://huggingface.co/papers?q=code-switching)基准上的实验表明,迭代交互能够持续减少语义错误,且S²ER的提升幅度远大于传统词元级指标。人机对齐实验和消融研究进一步验证了语义判断器的可靠性和所提框架的鲁棒性。代码地址:https://interactiveasr.github.io/,在线演示:https://i-asr.sjtuxlance.com/

查看 arXiv 页面(https://arxiv.org/abs/2605.29430)查看 PDF(https://arxiv.org/pdf/2605.29430)项目页面(https://interactiveasr.github.io/)GitHub2(https://github.com/InteractiveASR/AgenticASR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29430)

在您的智能体中获取这篇论文:

hf papers read 2605.29430

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接到本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.29430 以从此页面链接。

引用本论文的数据集0

没有数据集链接到本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.29430 以从此页面链接。

引用本论文的 Space0

没有 Space 链接到本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.29430 以从此页面链接。

包含本论文的收藏0

没有收藏包含本论文

请将本论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…

X AI KOLs Timeline

南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。

HawkesLLM:智能体文本模拟中的语义不确定性传播

arXiv cs.CL

本文介绍了HawkesLLM,一个通过结合用于时间影响和记忆选择的多变量Hawkes过程与用于文本生成的语言模型,对多步骤智能体文本模拟中的语义不确定性传播进行建模的框架。在GDELT新闻级联案例研究上的评估表明,在紧凑的提示-记忆约束下,后期语义对齐得到了改善。