标签
探讨长时间运行的AI代理任务被中断时,哪些状态或进度得以保留,并讨论对可靠性和恢复的影响。
EchoChain 是一项全新基准测试,旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式(上下文惯性、中断遗忘、目标偏移),结果表明,在当前评估的实时语音模型中,无一系统的通过率突破 50%。