迈向类人交互式语音识别:基于智能体修正与语义评估
摘要
本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。
查看缓存全文
缓存时间: 2026/06/08 15:16
论文页面 - 迈向类人交互式语音识别:基于智能体校正与语义评估
来源: https://huggingface.co/papers/2605.29430
作者:
,
,
,
,
,
,
,
,
,
摘要
交互式ASR框架融合了语义校正与基于推理的编辑,通过多轮精炼减少语义错误,该框架由新的句子级语义错误率指标和交互式仿真系统验证。
自动语音识别(https://huggingface.co/papers?q=Automatic%20speech%20recognition,ASR)是人机交互的核心组件,也是基于LLM的助手和智能体日益重要的前端。然而,当前大多数ASR系统仍遵循单次通过范式,这与人类通信中通过迭代澄清和精炼解决误解的方式严重脱节。这种不匹配使得一旦出现关键意义错误就很难纠正。同时,WER或CER等词元级指标无法充分反映这一问题。为解决这些局限,我们将交互式ASR定义为多轮精炼(https://huggingface.co/papers?q=multi-turn%20refinement)任务,并提出Agentic ASR这一闭环框架,它结合了单次通过ASR前端与语义校正(https://huggingface.co/papers?q=semantic%20correction)、意图路由(https://huggingface.co/papers?q=intent%20routing)以及基于推理的编辑(https://huggingface.co/papers?q=reasoning-based%20editing)。我们进一步引入句子级语义错误率(https://huggingface.co/papers?q=Sentence-level%20Semantic%20Error%20Rate,S²ER),这是一种基于LLM的语义评估指标,同时配套一个交互式仿真系统(https://huggingface.co/papers?q=Interactive%20Simulation%20System),用于可扩展且可复现的基准测试。在多语言(https://huggingface.co/papers?q=multilingual)、命名实体密集(https://huggingface.co/papers?q=named-entity-intensive)以及代码切换(https://huggingface.co/papers?q=code-switching)基准上的实验表明,迭代交互能够持续减少语义错误,且S²ER的提升幅度远大于传统词元级指标。人机对齐实验和消融研究进一步验证了语义判断器的可靠性和所提框架的鲁棒性。代码地址:https://interactiveasr.github.io/,在线演示:https://i-asr.sjtuxlance.com/
查看 arXiv 页面(https://arxiv.org/abs/2605.29430)查看 PDF(https://arxiv.org/pdf/2605.29430)项目页面(https://interactiveasr.github.io/)GitHub2(https://github.com/InteractiveASR/AgenticASR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29430)
在您的智能体中获取这篇论文:
hf papers read 2605.29430
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接到本论文
请在模型 README.md 中引用 arxiv.org/abs/2605.29430 以从此页面链接。
引用本论文的数据集0
没有数据集链接到本论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.29430 以从此页面链接。
引用本论文的 Space0
没有 Space 链接到本论文
请在 Space README.md 中引用 arxiv.org/abs/2605.29430 以从此页面链接。
包含本论文的收藏0
没有收藏包含本论文
请将本论文添加到一个收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…
南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。
Afrispeech Semantics:评估跨领域和口音的语音语言模型中的音频语义推理
本文介绍了Afrispeech Semantics,这是一个用于评估音频语言模型在语义推理任务上的基准测试,包括跨多种领域和口音的蕴含、一致性、合理性、口音漂移和口音抑制。
Mega-ASR: 通过扩展真实世界声学模拟实现 In-the-wild^2 语音识别
Mega-ASR 提出通过扩展真实世界声学模拟来改进在极具挑战性的野外条件下的自动语音识别,旨在缩小实验室与真实环境之间的性能差距。
HawkesLLM:智能体文本模拟中的语义不确定性传播
本文介绍了HawkesLLM,一个通过结合用于时间影响和记忆选择的多变量Hawkes过程与用于文本生成的语言模型,对多步骤智能体文本模拟中的语义不确定性传播进行建模的框架。在GDELT新闻级联案例研究上的评估表明,在紧凑的提示-记忆约束下,后期语义对齐得到了改善。
@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架,用于推理…
ASAG利用注意力熵来检测推理何时无效益,提前停止以提高准确率并减少token生成。在Qwen3-8B上的实验显示,准确率提升4.4%,生成的token减少超过40%。