EVA-Bench:评估语音代理的新型端到端框架
摘要
EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。
查看缓存全文
缓存时间: 2026/05/14 20:20
论文页面 - EVA-Bench:一种用于评估语音智能体的全新端到端框架
来源:https://huggingface.co/papers/2605.13841 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
EVA-Bench 提出了一个全面的语音智能体评估框架,该框架模拟真实对话,并使用新型准确度与体验指标,在多类语音特有失败模式上衡量性能。
语音智能体(https://huggingface.co/papers?q=Voice%20agents)是一类通过语音对话完成任务的人工智能系统,正越来越多地部署在企业应用中。然而,现有基准均未同时解决两个核心评估挑战:生成逼真的模拟对话,以及衡量语音特有全部失效模式下的质量。我们提出了 EVA-Bench,这是一个解决上述两个问题的端到端评估框架。在模拟方面,EVA-Bench 编排机器人之间的音频对话(https://huggingface.co/papers?q=bot-to-bot%20audio%20conversations),覆盖动态多轮对话(https://huggingface.co/papers?q=multi-turn%20dialogues),并带有自动模拟验证(https://huggingface.co/papers?q=automatic%20simulation%20validation),可检测用户模拟器(https://huggingface.co/papers?q=user%20simulator)错误,并在评分前适当地重新生成对话。在衡量方面,EVA-Bench 引入了两种复合指标(https://huggingface.co/papers?q=composite%20metrics):EVA-A(https://huggingface.co/papers?q=EVA-A)(准确度),衡量任务完成度(https://huggingface.co/papers?q=task%20completion)、忠实度以及音频层面的语音保真度(https://huggingface.co/papers?q=speech%20fidelity);以及 EVA-X(https://huggingface.co/papers?q=EVA-X)(体验),衡量对话进展(https://huggingface.co/papers?q=conversation%20progression)、口头简洁度和轮流说话时机(https://huggingface.co/papers?q=turn-taking%20timing)。这两个指标均适用于不同的智能体架构(https://huggingface.co/papers?q=agent%20architectures),支持直接的跨架构比较。EVA-Bench 包含三个企业领域的 213 个场景、一个用于口音和噪声鲁棒性(https://huggingface.co/papers?q=noise%20robustness)的受控扰动套件(https://huggingface.co/papers?q=controlled%20perturbation%20suite),以及 pass@1(https://huggingface.co/papers?q=pass%401)、pass@k(https://huggingface.co/papers?q=pass%40k)、pass^k(https://huggingface.co/papers?q=pass%5Ek)测量指标,用于区分峰值能力与可靠能力。在涵盖所有三种架构的 12 个系统上,我们发现:(1) 没有系统能同时在 EVA-A pass@1 和 EVA-X pass@1 上超过 0.5;(2) 峰值与可靠性能之间差异显著(EVA-A 上 pass@k 与 pass^k 中位数差距为 0.44);(3) 口音和噪声扰动暴露了巨大的鲁棒性差距,其影响因架构、系统和指标而异(均值高达 0.314)。我们将在开源许可下发布完整的框架、评估套件和基准数据。
查看 arXiv 页面(https://arxiv.org/abs/2605.13841)查看 PDF(https://arxiv.org/pdf/2605.13841)项目页面(https://servicenow.github.io/eva/)GitHub114(https://github.com/ServiceNow/eva)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.13841)
在您的智能体中获取此论文:
hf papers read 2605\.13841
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.13841,以便从此页面链接。
引用此论文的数据集 1
ServiceNow-AI/eva 查看器• 更新于约 2 小时前 • 213 • 123 • 70 (https://huggingface.co/datasets/ServiceNow-AI/eva)
引用此论文的 Space 0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.13841,以便从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
请将此论文添加至一个收藏集(https://huggingface.co/new-collection),以便从此页面链接。
相似文章
ServiceNow 推出 EVA:评估语音智能体的新框架
ServiceNow 发布 EVA,这是一个面向对话式语音智能体的端到端评估框架,能够同时评估任务准确率和对话体验。
EVA-Bench Data 2.0:3大领域、121个工具、213个场景
ServiceNow AI 发布 EVA-Bench Data 2.0,这是一个扩展的开源基准测试,用于评估语音智能体在3个企业领域(航空客户服务管理、IT服务管理、医疗人力资源服务交付)中的表现,涵盖213个场景和121个工具,并已针对 GPT-4.5、Gemini 和 Claude 进行验证。
自动化智能体评估的实证研究
本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。
Agent-ValueBench:一个评估智能体价值观的综合基准
本文提出了 Agent-ValueBench,这是一个旨在评估自主智能体价值观的综合基准,揭示了智能体的价值观与其底层语言模型存在分歧。
EnterpriseClawBench:基于真实工作会话的智能体基准测试
EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。