标签
EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。