保形智能体错误归因

arXiv cs.LG 论文

摘要

本文提出了一种基于保形预测的多智能体系统错误归因框架,为识别智能体轨迹中的决定性错误提供统计保证。该方法通过在连续预测集中隔离错误,实现了自动恢复与调试。

arXiv:2605.06788v1 公告类型:新论文 摘要:当多智能体系统(MAS)发生故障时,识别决定性错误发生的位置是自动恢复到先前状态的第一步。由于基于大型语言模型的多智能体系统生成长交互轨迹,错误归因仍然是一个根本性挑战。本文提出了一种基于保形预测(CP)的错误归因框架,提供有限样本、分布无关的覆盖率保证。我们引入了针对智能体轨迹等顺序数据的基于滤波的保形预测新算法。与现有的保形预测算法不同,我们的方法预测连续的序列集合,以实现高效的恢复和调试。我们在多种智能体和数据集上验证了理论保证,证明可以精确隔离错误,然后利用预测集将多智能体系统回滚以纠正自身错误。我们的整体方法具有模型无关性,为多智能体系统的错误归因提供了 principled 的不确定性层。代码发布于 https://github.com/layer6ai-labs/conformal-agent-error-attribution。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 06:51

# 共形智能体错误归因

**来源:** https://arxiv.org/html/2605.06788

**作者:**

Naihe Feng
Dalhousie University, Halifax, NS, Canada
[email protected]

& Yi Sui*
Layer 6 AI, Toronto, ON, Canada
[email protected]

& Shiyi Hou
Layer 6 AI, Toronto, ON, Canada
[email protected]

& Ga Wu
Dalhousie University, Halifax, NS, Canada
[email protected]

& Jesse C. Cresswell
Layer 6 AI, Toronto, ON, Canada
[email protected]

###### 摘要

当多智能体系统(MAS)失败时,识别决定性错误发生的位置是实现自动恢复到早期状态的第一步。由于基于大型语言模型(LLM)的 MAS 生成了漫长的交互轨迹,错误归因仍然是一个根本性的挑战。本文提出了一种基于共形预测(Conformal Prediction, CP)的错误归因框架,该框架提供了有限样本、分布自由的覆盖保证。我们引入了专为序列数据(如智能体轨迹)设计的基于过滤(filtration-based)CP 的新算法。与现有的 CP 算法不同,我们的方法预测的是连续序列集合,从而实现高效的恢复和调试。我们在多种智能体和数据集上验证了理论保证,展示了可以精确隔离错误,然后利用预测集合将 MAS 回滚以纠正其自身错误。我们的整体方法是模型无关的,并为 MAS 错误归因提供了 principled 的不确定性层。代码发布于 github.com/layer6ai-labs/conformal-agent-error-attribution (https://github.com/layer6ai-labs/conformal-agent-error-attribution)。

## 1 引言

**图 1:** 共形智能体错误归因在共形预测集中隔离失败 MAS 轨迹中的决定性错误,提供覆盖率的统计保证。

大型语言模型(LLMs)的进步推动了多智能体系统(MAS)在需要分解、协调和工具使用的复杂任务中的广泛应用\[10 (https://arxiv.org/html/2605.06788#bib.bib38)\],并在软件工程\[14 (https://arxiv.org/html/2605.06788#bib.bib40),15 (https://arxiv.org/html/2605.06788#bib.bib41)\]、科学发现\[8 (https://arxiv.org/html/2605.06788#bib.bib43)\]和金融决策\[30 (https://arxiv.org/html/2605.06788#bib.bib42)\]等领域表现出强大的实证性能。然而,MAS 中增加的系统复杂性和丰富的交互使其容易因不正确的中间决策、智能体间的协调失误以及长视距依赖而发生错误\[4 (https://arxiv.org/html/2605.06788#bib.bib26),19 (https://arxiv.org/html/2605.06788#bib.bib3)\]。虽然检测*整体*任务失败通常很简单,但理解失败*为何*以及*在何处*起源仍然具有挑战性,但对于调试和自校正至关重要。识别构成决定性错误点的决策步骤已成为改善 MAS 的中心挑战。

大多数现有的 MAS 错误归因方法,包括朴素的 LLM-as-a-judge 方法\[32 (https://arxiv.org/html/2605.06788#bib.bib1)\]、结构化推理管道\[13 (https://arxiv.org/html/2605.06788#bib.bib8),33 (https://arxiv.org/html/2605.06788#bib.bib33),31 (https://arxiv.org/html/2605.06788#bib.bib34)\]和微调的归因模型\[17 (https://arxiv.org/html/2605.06788#bib.bib27)\],最终都产生点预测,即承诺单个责任步骤。在实践中,点预测为从业者提供的可操作性洞察有限,因为它们不提供原理性的不确定性量化形式来评估可靠性,从而削弱了错误归因系统的可信度\[25 (https://arxiv.org/html/2605.06788#bib.bib2)\]。

共形预测(CP)通过生成*预测集合*为克服这一限制提供了有前景的方向。CP 通过在一系列应用中提供统计保证,实现不确定条件下的可靠决策\[2 (https://arxiv.org/html/2605.06788#bib.bib25),7 (https://arxiv.org/html/2605.06788#bib.bib14)\]。受这些发展的启发,我们提出了一种基于 CP 的 MAS 错误归因的不确定性感知框架,该框架提供有限样本、分布自由的覆盖保证。我们的方法不是预测单个步骤,而是识别执行轨迹中的一个局部区域,保证该区域在用户指定的置信水平下包含决定性错误(见**图 1** (https://arxiv.org/html/2605.06788#S1.F1))。

我们介绍了适用于序列数据结构(如智能体轨迹)的基于过滤的 CP 新颖方法。与产生任意集合的现有 CP 方法不同,我们的方法产生*连续*集合,与序列数据的内在序数结构相一致。最后,我们利用共形集合将 MAS 回滚到决定性错误之前,允许智能体重新启动并修复其自身错误。我们的方法是模型无关的,可以封装现有的黑盒归因分数,同时为现实世界 MAS 中的错误归因提供原理性的不确定性层。

## 2 背景与相关工作

### 2.1 事后多智能体系统错误归因

近期关于 MAS 错误归因的研究主要使用执行轨迹研究错误的事后定位。早期方法使用*朴素 LLM-as-a-judge*,即单个 LLM 直接从失败轨迹中预测责任步骤\[32 (https://arxiv.org/html/2605.06788#bib.bib1)\]。后续工作通过更复杂的 LLM 管道改进了归因质量,包括*上下文工程*以及多 LLM 框架。例如,ECHO\[3 (https://arxiv.org/html/2605.06788#bib.bib32)\]通过将长轨迹组织为分层上下文并通过共识聚合评估来改进归因,而 RAFFLES\[33 (https://arxiv.org/html/2605.06788#bib.bib33)\]采用多轮、多 LLM 架构,迭代地提出和批评候选错误步骤。此外,CORRECT\[31 (https://arxiv.org/html/2605.06788#bib.bib34)\]结合检索技术,基于相似事件定位错误步骤。

另一类互补的研究*微调专门的 LLM 评判器*用于错误归因。特别是,AEGIS\[17 (https://arxiv.org/html/2605.06788#bib.bib27)\]通过控制错误注入构建大规模标记的失败轨迹,以便在任务上微调 LLMs。在我们的实验中,我们比较了这三类主要评估器的有效性:朴素、上下文工程和微调的 LLM 评判器。我们注意到,上述所有研究都假设存在单个决定性错误,而在实际的 MAS 应用中,小错误可能会累积成大错误。由于缺乏具有更细微错误定义的标记数据集,我们遵循当前工作,专注于决定性错误设置。

### 2.2 共形预测

对于一个分类问题,其中输入 $x \in \mathcal{X}$ 和真实值 $y^* \in \mathcal{Y} = [\ell] := \{1, \dots, \ell\}$ 联合从分布 $(x, y^*) \sim \mathbb{P}$ 中抽取,CP 首先从一组保留数据中校准阈值 $\hat{q}$。然后对于新数据点 $x_{n+1}$,CP 输出一类集合 $C(x_{n+1}; \hat{q}) \subseteq \mathcal{Y}$,其中包含 $y^*$ 的概率较高,即 $\mathbb{P}[y_{n+1}^* \in C(x_{n+1}; \hat{q})] \geq 1 - \alpha$。这种*覆盖*保证是分布自由的且在有限样本中有效,同时也允许用户设置自己的误差容忍度 $\alpha$\[27 (https://arxiv.org/html/2605.06788#bib.bib17),26 (https://arxiv.org/html/2605.06788#bib.bib20)\]。

为了执行 CP,首先定义一个*共形得分*函数 $S: \mathcal{X} \times \mathcal{Y} \to \mathbb{R}^+$,当 $y = y^*$ 是 $x$ 的正确标签时,该函数应取较小值。在实践中,$S(x, y)$ 通常利用预训练分类模型 $f: \mathcal{X} \to \mathcal{Y}$ 的预测。使用一组 $n$ 个校准数据点,CP 计算得分 $\{S_i\}_{i=1}^n = \{S(x_i, y_i^*)\}_{i=1}^n$,并找到 $\lceil (n+1)(1-\alpha) \rceil / n$ 分位数,将其设为阈值 $\hat{q}$。然后通过包含所有得分小于 $\hat{q}$ 的类来生成预测集合,$C(x_{n+1}; \hat{q}) = \{y \in \mathcal{Y} \mid S(x_{n+1}, y) \leq \hat{q}\}$。当 $x_{n+1}$ 与校准数据可交换时,覆盖保证有效。可交换性是一个温和的假设,当数据是独立同分布(i.i.d.)时自动成立,因此对于许多机器学习环境是合理的,包括我们在实验中展示的智能体错误归因任务。在相等的覆盖水平 $1-\alpha$ 下,较小的预测集合在预测 $f_\theta$ 的不确定性量化\[24 (https://arxiv.org/html/2605.06788#bib.bib19),1 (https://arxiv.org/html/2605.06788#bib.bib13),16 (https://arxiv.org/html/2605.06788#bib.bib18)\]和下游任务\[7 (https://arxiv.org/html/2605.06788#bib.bib14),6 (https://arxiv.org/html/2605.06788#bib.bib15)\]中都被认为更有用。

### 2.3 序列数据的共形预测

另一种常见设置是数据为序列形式,$x = (c_1, \dots, c_\ell)$,长度为可变 $\ell$,其中真实值 $y^* \subset x$ 是元素的子集。遵循 Kuwahara et al.\[18 (https://arxiv.org/html/2605.06788#bib.bib10)\],CP 的原则可用于校准阈值 $\hat{q}$,并预测子集 $C(x_{n+1}; \hat{q}) \subseteq x_{n+1}$,该子集以高概率保留真实元素,$\mathbb{P}[y_{n+1}^* \subseteq C(x_{n+1}; \hat{q})] \geq 1 - \alpha$。在某些设置中,$y^*$ 将由多个元素组成,且预测集合 $C(x_{n+1}; \hat{q})$ 不必是连续的。对于智能体错误归因,我们将 $x$ 视为智能体的轨迹,将 $y^*$ 视为单个决定性错误——即 $c_i$ 之一。正如我们将讨论的,对于包括自动回滚智能体状态的下游应用,预测*连续*元素的集合而不是任意子集是可取的。因此,我们开发了新颖的 CP 算法,使用连续预测集合满足覆盖保证:
$$
\mathbb{P}[y_{n+1}^* \in C(x_{n+1}; \hat{q})] \geq 1 - \alpha, \quad C(x_{n+1}; \hat{q}) = (c_j, \dots, c_k). \tag{1}
$$
唯一能产生连续集合的现有 CP 算法是为分层分类设计的\[21 (https://arxiv.org/html/2605.06788#bib.bib4)\]。我们在**第 3.1.2 节** (https://arxiv.org/html/2605.06788#S3.SS1.SSS2) 描述了一种这样的算法,并将其改编用于序列数据。

## 3 共形智能体错误归因

在本文的其余部分,我们取 $x = (c_1, \dots, c_\ell)$ 为未能完成所需任务的智能体轨迹。每个步骤 $c_j$ 可以包含任何可用信息,如环境状态、采取的动作和观察到的响应。其中一个步骤 $y^* \in x$ 被标记为决定性错误——MAS 无法恢复的最早错误。目标是产生一个预测集合 $C(x_{n+1}) \subseteq x_{n+1}$,该集合提供有效的覆盖,其中较小的集合更受青睐。

将 CP 应用于智能体错误归因需要两个组件:一个算法,它接收校准数据集并为 $x_{n+1}$ 生成具有有效覆盖的预测集合;以及一个作用于步骤集合的评分函数 $g(C(x))$,该函数量化 $y^* \in C(x)$ 的可能性。我们将这两个组件分开设计,使它们可以互换,并讨论每种选择的优缺点。

### 3.1 智能体错误归因的共形算法

#### 3.1.1 朴素共形预测

最简单的方法是忽略 $x$ 的序列性质,并将所有步骤视为 $\ell$ 类分类任务中的无序类。我们将共形得分函数写为 $S_{\text{VCP}} = 1 - g$,并将由朴素 CP(VCP)生成的预测集合写为 $C_{\text{VCP}}(x_{n+1}; \hat{q}) = \{c_i \in x_{n+1} \mid S_{\text{VCP}}(x_{n+1}, c_i) \leq \hat{q}\}$。预测需要使用 $\ell$ 次 $g$ 评估迭代轨迹中的每一步,且不产生连续集合。

#### 3.1.2 叶到根树遍历

**图 2:** 表示由四个步骤 $c_1, \dots, c_4$ 组成的智能体轨迹 $x$ 的二叉树 $\mathcal{T}$ 示例。连续预测集合 $C(x_{n+1})$ 将包含单个节点 $v_i$。

为了产生连续集合,我们可以通过将智能体轨迹 $x$ 映射到二叉树 $\mathcal{T}$ 上来改编分层分类算法,如图**2** (https://arxiv.org/html/2605.06788#S3.F2) 所示,根节点为 $v_1 = [\ell]$,叶节点 $v_\ell, \dots, v_{2\ell-1}$ 为单个步骤 $c_1, \dots, c_\ell$。CP 通过从叶到根遍历树来执行,遵循在**附录 B** (https://arxiv.org/html/2605.06788#A2) 中详细描述 CRSVP 算法\[21 (https://arxiv.org/html/2605.06788#bib.bib4)\]。对于每个测试数据点,CRSVP 输出树的一个节点作为预测集合,该集合始终是一个连续集合,并保证**公式 1** (https://arxiv.org/html/2605.06788#S2.E1) 中的覆盖下界。CRSVP 缺乏覆盖上界,预测使用 $\ell$ 次 $g$ 评估,并产生遵循树分割的僵化集合。例如,在**图 2** (https://arxiv.org/html/2605.06788#S3.F2) 中,中间步骤 $c_2$ 和 $c_3$ 只有在所有步骤都被预测($v_1$)的平凡情况下才能一起预测。VCP 和 CRSVP 在我们的实验中作为基线。以下新颖算法改进了它们的局限性。

#### 3.1.3 左(右)过滤

**图 3:** 当 $q$ 减小时,带有 $F_{\text{LF}}(x; q)$ 的左过滤逐渐从左移除步骤。保留决定性错误 $y^*$ 的最小 $q$ 用作共形得分 $S_{\text{LF}}(x, y^*)$。

将轨迹 $x = (c_1, \dots, c_\ell)$ 视为序列,左过滤(LF)从左侧的 $c_1$ 开始逐步从 $x$ 中移除步骤,直到剩余子序列的得分低于校准阈值,返回完整序列的*后缀*。我们假设可以访问一个评分函数 $g_{\text{LF}}$,该函数对包含 $y^*$ 的可能性对子区间 $c_{j:k} := (c_j, \dots, c_k) \subseteq x$ 进行评分,施加边界条件 $g_{\text{LF}}(\emptyset) = 0$,因为空区间不能包含 $y^*$,且 $g_{\text{LF}}(x) = \infty$,因为 $y^* \in x$。我们将使用 $j^*$ 作为 $y^*$ 出现的索引,因此 $c_{j^*} = y^*$。

相似文章

AgentForesight:多智能体系统中用于早期故障预测的在线审计

arXiv cs.CL

本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。

超越自主性:了解自身局限的智能体之力量

Reddit r/AI_Agents

COWCORPUS项目通过对4200次人机交互的研究发现,能够预测自身失败和干预时机的智能体,比那些仅仅试图避免错误的智能体更有用。研究人员识别出人机协作中四种稳定的信任模式,并开发了完美时机评分(PTS)来衡量干预预测的准确性。

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。

@omarsar0: 苹果的一篇很棒的论文。大多数对工具调用智能体的评估都发生在轨迹结束之后。但那时错误的调用早已发出。这篇新论文将评估移入执行循环中。一个专门的审稿智能体在执行前检查每个临时工具调用。如果有问题,它注入反馈,主智能体进行修正。为了量化修正与新错误之间的权衡,他们提出了“有益性-有害性”指标。有益性衡量基础错误被修复的百分比;有害性衡量因审稿而降低正确调用质量的比例。在 BFCL 上的结果:无关检测准确率提升 5.5%(从 84.9% 到 90.4%),相关检测提升 1.6%,且无需重新训练基础智能体。在 τ²-Bench 多轮任务上提升 7.1%(从 48.7% 到 55.8%)。推理模型审稿者比 GPT-4o 获得 3:1 的收益风险比,而 GPT-4o 为 2.1:1。加入 GEPA 提示优化可再提升 1.5–2.8%。为什么这很重要?你可以保持基础工具调用智能体不变,仅通过改进审稿者即可实现显著的准确性提升。对审稿者的模型选择和提示优化成为独立的生产杠杆。论文链接:https://arxiv.org/abs/2604.27233 在我们的学院学习如何构建高效的 AI 智能体:https://academy.dair.ai

X AI KOLs Timeline

这篇来自苹果的研究论文介绍了“强化智能体”(Reinforced Agent)方法,通过使用专门的审稿智能体在实时执行过程中修正工具调用错误,将评估纳入执行循环。它在 BFCL 和 τ²-Bench 等基准测试上展示了显著的准确性提升,而无需重新训练基础智能体。