EVA-Bench:评估语音代理的新型端到端框架

Hugging Face Daily Papers 论文

摘要

EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。

语音代理是进行口语对话以完成任务的人工智能系统,越来越多地部署在企业应用中。然而,现有的基准没有同时解决两个核心评估挑战:生成逼真的模拟对话,以及全面衡量语音特定故障模式的质量。我们提出了 EVA-Bench,一个同时解决这两个问题的端到端评估框架。在模拟方面,EVA-Bench 通过动态多轮对话编排机器人之间的音频对话,并自动进行模拟验证,检测用户模拟器的错误,并在评分前适当重新生成对话。在测量方面,EVA-Bench 引入了两个复合指标:EVA-A(准确度),涵盖任务完成度、忠实度和音频级别的语音保真度;以及 EVA-X(体验),涵盖对话进展、口语简洁度和轮流发言的时序。这两个指标适用于不同的代理架构,从而支持直接的跨架构比较。EVA-Bench 包含三个企业领域的 213 个场景、一个用于口音和噪声鲁棒性的受控扰动套件,以及 pass@1、pass@k、pass^k 测量,以区分峰值能力和可靠能力。在涵盖所有三种架构的 12 个系统中,我们发现:(1)没有系统能在 EVA-A pass@1 和 EVA-X pass@1 上同时超过 0.5;(2)峰值能力和可靠能力存在显著差异(EVA-A 上 pass@k 与 pass^k 的中位数差距为 0.44);(3)口音和噪声扰动暴露了显著的鲁棒性差距,其影响因架构、系统和指标而异(平均值高达 0.314)。我们以开源许可发布完整的框架、评估套件和基准数据。
查看原文
查看缓存全文

缓存时间: 2026/05/14 20:20

论文页面 - EVA-Bench:一种用于评估语音智能体的全新端到端框架

来源:https://huggingface.co/papers/2605.13841 作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

EVA-Bench 提出了一个全面的语音智能体评估框架,该框架模拟真实对话,并使用新型准确度与体验指标,在多类语音特有失败模式上衡量性能。

语音智能体(https://huggingface.co/papers?q=Voice%20agents)是一类通过语音对话完成任务的人工智能系统,正越来越多地部署在企业应用中。然而,现有基准均未同时解决两个核心评估挑战:生成逼真的模拟对话,以及衡量语音特有全部失效模式下的质量。我们提出了 EVA-Bench,这是一个解决上述两个问题的端到端评估框架。在模拟方面,EVA-Bench 编排机器人之间的音频对话(https://huggingface.co/papers?q=bot-to-bot%20audio%20conversations),覆盖动态多轮对话(https://huggingface.co/papers?q=multi-turn%20dialogues),并带有自动模拟验证(https://huggingface.co/papers?q=automatic%20simulation%20validation),可检测用户模拟器(https://huggingface.co/papers?q=user%20simulator)错误,并在评分前适当地重新生成对话。在衡量方面,EVA-Bench 引入了两种复合指标(https://huggingface.co/papers?q=composite%20metrics):EVA-A(https://huggingface.co/papers?q=EVA-A)(准确度),衡量任务完成度(https://huggingface.co/papers?q=task%20completion)、忠实度以及音频层面的语音保真度(https://huggingface.co/papers?q=speech%20fidelity);以及 EVA-X(https://huggingface.co/papers?q=EVA-X)(体验),衡量对话进展(https://huggingface.co/papers?q=conversation%20progression)、口头简洁度和轮流说话时机(https://huggingface.co/papers?q=turn-taking%20timing)。这两个指标均适用于不同的智能体架构(https://huggingface.co/papers?q=agent%20architectures),支持直接的跨架构比较。EVA-Bench 包含三个企业领域的 213 个场景、一个用于口音和噪声鲁棒性(https://huggingface.co/papers?q=noise%20robustness)的受控扰动套件(https://huggingface.co/papers?q=controlled%20perturbation%20suite),以及 pass@1(https://huggingface.co/papers?q=pass%401)、pass@k(https://huggingface.co/papers?q=pass%40k)、pass^k(https://huggingface.co/papers?q=pass%5Ek)测量指标,用于区分峰值能力与可靠能力。在涵盖所有三种架构的 12 个系统上,我们发现:(1) 没有系统能同时在 EVA-A pass@1 和 EVA-X pass@1 上超过 0.5;(2) 峰值与可靠性能之间差异显著(EVA-A 上 pass@k 与 pass^k 中位数差距为 0.44);(3) 口音和噪声扰动暴露了巨大的鲁棒性差距,其影响因架构、系统和指标而异(均值高达 0.314)。我们将在开源许可下发布完整的框架、评估套件和基准数据。

查看 arXiv 页面(https://arxiv.org/abs/2605.13841)查看 PDF(https://arxiv.org/pdf/2605.13841)项目页面(https://servicenow.github.io/eva/)GitHub114(https://github.com/ServiceNow/eva)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.13841)

在您的智能体中获取此论文:

hf papers read 2605\.13841

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.13841,以便从此页面链接。

引用此论文的数据集 1

ServiceNow-AI/eva 查看器• 更新于约 2 小时前 • 213 • 123 • 70 (https://huggingface.co/datasets/ServiceNow-AI/eva)

引用此论文的 Space 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.13841,以便从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

请将此论文添加至一个收藏集(https://huggingface.co/new-collection),以便从此页面链接。

相似文章

EVA-Bench Data 2.0:3大领域、121个工具、213个场景

Hugging Face Blog

ServiceNow AI 发布 EVA-Bench Data 2.0,这是一个扩展的开源基准测试,用于评估语音智能体在3个企业领域(航空客户服务管理、IT服务管理、医疗人力资源服务交付)中的表现,涵盖213个场景和121个工具,并已针对 GPT-4.5、Gemini 和 Claude 进行验证。

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。