我的语音代理测试现在包含600秒断崖

Reddit r/AI_Agents 新闻

摘要

作者描述了一次语音代理通话在600秒时被无预警切断的情况,并提出了一种优雅处理最大通话时长的测试方法,包括切断前警告和状态保存。

我曾以为长语音通话已基本解决,直到有一次我在开车时使用,它正好在600秒时被切断。令人烦恼的不仅是超时本身,而是通话在思路进行到一半时突然结束,没有警告、没有总结、也没有清晰的下一步。转录记录虽然存在,但整个工作流感觉被抛弃了。现在我把最大通话时长视为一个质量保障(QA)用例,而不是基础设施细节。我的测试方法:- 让通话超过预期限制 - 在切断前发出警告 - 捕获简短总结 - 保留转录记录 - 写入重试或下一步动作状态如果代理无法优雅地收尾,那么该通话还不能投入生产。它可能完美地处理正常轮次,但在用户需要连续性的关键时刻却显得支离破碎。对于构建语音代理的人:你们会测试最大通话时长/收尾行为吗?还是主要测试中断和延迟?
查看原文

相似文章

EVA-Bench:评估语音代理的新型端到端框架

Hugging Face Daily Papers

EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。

EchoChain:面向中断场景的全双工状态更新推理基准

arXiv cs.CL

EchoChain 是一项全新基准测试,旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式(上下文惯性、中断遗忘、目标偏移),结果表明,在当前评估的实时语音模型中,无一系统的通过率突破 50%。