当证据稀疏时:对话与LLM-Agent轨迹中的弱监督早期故障预警

arXiv cs.CL 论文

摘要

本文提出了一种两阶段方法,用于对话和LLM-Agent轨迹中的早期故障预警。该方法通过从轨迹标签中学习逐轮故障证据来解决证据稀疏的挑战,并使用基于注意力的预测器与偏好条件停止策略(α-STOP),以实现可控的准确率-及时性权衡。

arXiv:2606.05414v1 公告类型:新 摘要:早期故障预警需要在对话或Agent轨迹还在进行时,决定是否标记为可能失败。这具有挑战性,因为监督信号通常仅以轨迹级别的成功/失败标签形式提供,而预警必须基于部分交互提前发出。先前的早期分类方法通常通过将终端标签赋予每个前缀来弥合这一差距,将每一轮视为故障证据。我们假设这种前缀标签假设与多轮语言交互不匹配,因为最终失败的证据稀疏且常常延迟出现。在本文中,我们引入了一种两阶段方法,从这种稀疏证据结构中学习,并利用由此产生的风险估计进行可控的早期预警。具体来说,我们的基于注意力的故障预测器从轨迹标签中学习稀疏的逐轮故障证据,并利用它从部分历史中估计故障风险。然后,我们将该预测器与α-STOP配对,α-STOP是一种单一偏好条件停止策略,可以在推理时选择准确率-及时性的操作点,而无需为每种偏好训练单独的触发器。在涵盖客户支持、任务导向对话、说服、工具使用和规划等五个基准上,我们首先证明高相关性故障证据仅占4.7-11.3%的轮次,并且平均在59.0-83.6%的轨迹之后首次出现。我们进一步证明,基于注意力的预测器将帕累托前沿质量(超体积)比朴素前缀监督提高了1-10%,并且整个系统比最先进的触发策略提高了前沿质量3-42%,同时每个操作点的训练成本降低了1-3个数量级。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:06

# 当证据稀疏时:对话与LLM代理轨迹中的弱监督早期故障预警
来源:https://arxiv.org/abs/2606.05414
查看PDF(https://arxiv.org/pdf/2606.05414)

> 摘要:早期故障预警要求在对话或代理轨迹尚未完成时,即判断是否需要标记为可能失败。这一任务具有挑战性,因为监督信号通常仅以轨迹层面的成功/失败标签形式存在,而预警必须基于部分交互过程。以往的早期分类方法通常将终端标签赋予每个前缀,将每一轮对话都视为失败证据,以此弥合这一差距。我们假设这种前缀标签假设与多轮语言交互并不匹配,因为在多轮交互中,最终失败的证据往往稀疏且常出现延迟。本文提出了一种两阶段方法,从这种稀疏证据结构中学习,并利用所得的风险估计实现可控的早期预警。具体而言,我们的基于注意力的失败预测器从轨迹标签中学习稀疏的轮次级失败证据,并利用它从部分历史信息中估计失败风险。随后,我们将该预测器与 $\\alpha$-STOP 配对,后者是一个单一偏好条件停止策略,可在推理时选择准确性-及时性的操作点,而无需为每个偏好训练单独的触发策略。在涵盖客户支持、任务导向型对话、说服、工具使用和规划等五个基准测试中,我们首先发现高相关性的失败证据仅占轮次的4.7%-11.3%,且平均在59.0%-83.6%的轨迹之后才首次出现。我们进一步证明,与朴素前缀监督相比,基于注意力的预测器可将帕累托前沿质量(超体积)提升1-10%,且完整系统相较于最先进的触发策略可将前沿质量提升3-42%,同时将每个操作点的训练成本降低1-3个数量级。

## 提交历史

来自:Avinash Baidya \[查看邮箱(https://arxiv.org/show-email/c3acd6bd/2606.05414)\] **\[v1\]** 2026年6月3日星期三 20:28:27 UTC(2,655 KB)

相似文章

从自信地宣告完成到悄然失败:描述LLM智能体中的虚假成功

arXiv cs.LG

本文描述了LLM智能体中的“虚假成功”现象,即智能体声称任务已完成,但环境状态显示并非如此。研究发现,在多个基准测试中,虚假成功占失败的45%-75%。LLM评判器无法可靠检测到这一现象,而轻量级TF-IDF检测器能以更低延迟实现高AUROC,提示生产监控应使用校准检测器而非LLM评判器。

AgentForesight:多智能体系统中用于早期故障预测的在线审计

arXiv cs.CL

本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。

StepFinder:一种用于多智能体系统故障归因的时间语义框架

arXiv cs.AI

StepFinder 是一个轻量级框架,仅在特征构建阶段使用LLM将执行日志编码为时间语义序列,然后应用参数高效的时间与注意力模块进行多智能体系统的故障归因。在Who&When基准测试中,与最快的基于LLM的方法相比,推理时间减少了79%。