EVA-Bench：评估语音代理的新型端到端框架

Hugging Face Daily Papers 2026/05/13 00:00 论文

摘要

EVA-Bench 提出了一个全面的端到端评估框架，用于评估语音代理，模拟真实的多轮对话，并通过新颖的准确度（EVA-A）和体验（EVA-X）指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件，揭示了当前系统的显著差距。

语音代理是进行口语对话以完成任务的人工智能系统，越来越多地部署在企业应用中。然而，现有的基准没有同时解决两个核心评估挑战：生成逼真的模拟对话，以及全面衡量语音特定故障模式的质量。我们提出了 EVA-Bench，一个同时解决这两个问题的端到端评估框架。在模拟方面，EVA-Bench 通过动态多轮对话编排机器人之间的音频对话，并自动进行模拟验证，检测用户模拟器的错误，并在评分前适当重新生成对话。在测量方面，EVA-Bench 引入了两个复合指标：EVA-A（准确度），涵盖任务完成度、忠实度和音频级别的语音保真度；以及 EVA-X（体验），涵盖对话进展、口语简洁度和轮流发言的时序。这两个指标适用于不同的代理架构，从而支持直接的跨架构比较。EVA-Bench 包含三个企业领域的 213 个场景、一个用于口音和噪声鲁棒性的受控扰动套件，以及 pass@1、pass@k、pass^k 测量，以区分峰值能力和可靠能力。在涵盖所有三种架构的 12 个系统中，我们发现：（1）没有系统能在 EVA-A pass@1 和 EVA-X pass@1 上同时超过 0.5；（2）峰值能力和可靠能力存在显著差异（EVA-A 上 pass@k 与 pass^k 的中位数差距为 0.44）；（3）口音和噪声扰动暴露了显著的鲁棒性差距，其影响因架构、系统和指标而异（平均值高达 0.314）。我们以开源许可发布完整的框架、评估套件和基准数据。

查看原文

查看缓存全文

缓存时间: 2026/05/14 20:20

论文页面 - EVA-Bench：一种用于评估语音智能体的全新端到端框架

来源：https://huggingface.co/papers/2605.13841 作者：

摘要

EVA-Bench 提出了一个全面的语音智能体评估框架，该框架模拟真实对话，并使用新型准确度与体验指标，在多类语音特有失败模式上衡量性能。

语音智能体（https://huggingface.co/papers?q=Voice%20agents）是一类通过语音对话完成任务的人工智能系统，正越来越多地部署在企业应用中。然而，现有基准均未同时解决两个核心评估挑战：生成逼真的模拟对话，以及衡量语音特有全部失效模式下的质量。我们提出了 EVA-Bench，这是一个解决上述两个问题的端到端评估框架。在模拟方面，EVA-Bench 编排机器人之间的音频对话（https://huggingface.co/papers?q=bot-to-bot%20audio%20conversations），覆盖动态多轮对话（https://huggingface.co/papers?q=multi-turn%20dialogues），并带有自动模拟验证（https://huggingface.co/papers?q=automatic%20simulation%20validation），可检测用户模拟器（https://huggingface.co/papers?q=user%20simulator）错误，并在评分前适当地重新生成对话。在衡量方面，EVA-Bench 引入了两种复合指标（https://huggingface.co/papers?q=composite%20metrics）：EVA-A（https://huggingface.co/papers?q=EVA-A）（准确度），衡量任务完成度（https://huggingface.co/papers?q=task%20completion）、忠实度以及音频层面的语音保真度（https://huggingface.co/papers?q=speech%20fidelity）；以及 EVA-X（https://huggingface.co/papers?q=EVA-X）（体验），衡量对话进展（https://huggingface.co/papers?q=conversation%20progression）、口头简洁度和轮流说话时机（https://huggingface.co/papers?q=turn-taking%20timing）。这两个指标均适用于不同的智能体架构（https://huggingface.co/papers?q=agent%20architectures），支持直接的跨架构比较。EVA-Bench 包含三个企业领域的 213 个场景、一个用于口音和噪声鲁棒性（https://huggingface.co/papers?q=noise%20robustness）的受控扰动套件（https://huggingface.co/papers?q=controlled%20perturbation%20suite），以及 pass@1（https://huggingface.co/papers?q=pass%401）、pass@k（https://huggingface.co/papers?q=pass%40k）、pass^k（https://huggingface.co/papers?q=pass%5Ek）测量指标，用于区分峰值能力与可靠能力。在涵盖所有三种架构的 12 个系统上，我们发现：(1) 没有系统能同时在 EVA-A pass@1 和 EVA-X pass@1 上超过 0.5；(2) 峰值与可靠性能之间差异显著（EVA-A 上 pass@k 与 pass^k 中位数差距为 0.44）；(3) 口音和噪声扰动暴露了巨大的鲁棒性差距，其影响因架构、系统和指标而异（均值高达 0.314）。我们将在开源许可下发布完整的框架、评估套件和基准数据。

查看 arXiv 页面（https://arxiv.org/abs/2605.13841）查看 PDF（https://arxiv.org/pdf/2605.13841）项目页面（https://servicenow.github.io/eva/）GitHub114（https://github.com/ServiceNow/eva）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.13841）

在您的智能体中获取此论文：

hf papers read 2605\.13841

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.13841，以便从此页面链接。

引用此论文的数据集 1

ServiceNow-AI/eva 查看器• 更新于约 2 小时前 • 213 • 123 • 70 (https://huggingface.co/datasets/ServiceNow-AI/eva)

引用此论文的 Space 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.13841，以便从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

请将此论文添加至一个收藏集（https://huggingface.co/new-collection），以便从此页面链接。

EVA-Bench：评估语音代理的新型端到端框架

论文页面 - EVA-Bench：一种用于评估语音智能体的全新端到端框架

摘要

引用此论文的模型 0

引用此论文的数据集 1

ServiceNow-AI/eva 查看器• 更新于约 2 小时前 • 213 • 123 • 70 (https://huggingface.co/datasets/ServiceNow-AI/eva)

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

ServiceNow 推出 EVA：评估语音智能体的新框架

EVA-Bench Data 2.0：3大领域、121个工具、213个场景

自动化智能体评估的实证研究

Agent-ValueBench：一个评估智能体价值观的综合基准

EnterpriseClawBench：基于真实工作会话的智能体基准测试

提交意见反馈