对自动化工作流中代理失调的冷静审视

arXiv cs.AI 论文

摘要

本文研究了自动化工作流中的多代理系统中的代理失调问题,提出了代理证据归因(Agentic Evidence Attribution, AEA)方法,利用上下文特定的证据纠正代理行为的不对齐。

arXiv:2605.24197v1 公告类型:新 摘要:我们研究了一类多代理系统(MAS)中出现的失调问题,重点关注自动化工作流,我们称之为代理失调。尽管这些系统能够解决复杂任务,但它们常常因为代理按照与人类预期目标不一致的隐式代理效用行事而失败。我们正式定义了这些行为,并在贝叶斯框架下对其进行分析,表明通用效用自然会导致自动化工作流中代理的后验崩溃。为了解决这个问题,我们提出了代理证据归因(AEA),一种新型的对齐范式,利用上下文特定的证据改善代理的后验。AEA 对代理行为进行推理,并提供结构化证据以纠正协作中的失调行为。为了更深入理解证据的作用,我们研究了 AEA 的两种实例化:自我反思(来自模型的内部证据)和弱到强泛化(关于代理轨迹的外部证据)。我们证明,一个小型证据模型通过提供正交的失败归因,能够有效对齐 MAS。我们的结果阐明了自动化工作流中代理失调的根源,并表明基于证据的对齐能够有效改善代理协作,从而构建基于自动化工作流的可靠多代理系统。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:06

# 对自动化工作流中智能体失调的冷静审视

来源:https://arxiv.org/html/2605.24197

Wenqian Ye¹, Bo Yuan², Zhichao Xu³, Yijun Tian³, Yawei Wang³, Henry Kautz¹, Aidong Zhang¹

¹弗吉尼亚大学 ²佐治亚理工学院 ³Amazon AWS AI

\{wenqian, aidong\}@virginia\.edu

###### 摘要

我们研究了多智能体系统(MAS)中一类涌现性失调行为,重点关注自动化工作流,并将其称为**智能体失调**。尽管这些系统能够解决复杂任务,但由于智能体依据隐式的代理效用行事,而这些效用与预期的人类目标不一致,因此常常导致失败。我们正式定义了这些行为,并在贝叶斯框架下进行分析,表明通用效用自然地导致自动化工作流中智能体的**后验坍塌**。为了解决这一问题,我们提出了**智能体证据归因**(AEA),一种新的对齐范式,利用上下文特定的证据来改善智能体后验。AEA对智能体动作进行推理,并提供结构化证据,以在协作过程中纠正失调行为。为了更深入地理解证据的作用,我们研究了AEA的两种实例化:自我反思(来自模型的内部证据)和弱到强泛化(关于智能体轨迹的外部证据)。我们证明了一个小型证据模型通过提供正交的失败归因,能够有效地对齐MAS。我们的结果阐明了自动化工作流中智能体失调的来源,并表明基于证据的对齐可以有效改善智能体协作,从而构建可靠的、基于自动化工作流的多智能体系统。

## 1 引言

基于大语言模型(LLM)的多智能体系统(MAS)越来越多地用于需要任务分解[27](https://arxiv.org/html/2605.24197#bib.bib27), [9](https://arxiv.org/html/2605.24197#bib.bib9)、工具使用[28](https://arxiv.org/html/2605.24197#bib.bib28), [43](https://arxiv.org/html/2605.24197#bib.bib43)和多步推理[2](https://arxiv.org/html/2605.24197#bib.bib2), [25](https://arxiv.org/html/2605.24197#bib.bib25)的任务。最近的MAS大多利用一个编排器(或称元智能体)通过一种称为自动化工作流生成的技术[19](https://arxiv.org/html/2605.24197#bib.bib19), [45](https://arxiv.org/html/2605.24197#bib.bib45),来构建不同角色的智能体并安排交互顺序。该技术提供了一种通用解决方案,用于构建智能体之间的协作,使其能够自主规划并执行独立任务。尽管这些工作流使智能体能够处理复杂目标,但近期研究也报告了MAS在若干系统性的方面失败的情况[6](https://arxiv.org/html/2605.24197#bib.bib6), [12](https://arxiv.org/html/2605.24197#bib.bib12), [16](https://arxiv.org/html/2605.24197#bib.bib16), [21](https://arxiv.org/html/2605.24197#bib.bib21)。即使每个独立智能体在孤立情况下表现良好,这些对齐失败仍然会发生,这表明智能体工作流内部存在一种潜在的涌现性协调问题。解释这些失调的一个定性视角是:智能体依据一个由通用预训练和后期训练塑造的共享效用(或某些文献中的奖励)行事,而非工作流所需的角色特定目标(图1左)[17](https://arxiv.org/html/2605.24197#bib.bib17), [29](https://arxiv.org/html/2605.24197#bib.bib29), [4](https://arxiv.org/html/2605.24197#bib.bib4)。在自动化工作流中,智能体只能观察到关于通用目标和其他智能体行为的部分信息。因此,智能体会形成一个由通用训练分布塑造的隐式效用,而非针对自身角色的预期效用。这种隐式效用可能会偏离整个工作流的目标,导致奖励黑客行为[31](https://arxiv.org/html/2605.24197#bib.bib31),包括最小化努力、不完整的交接以及可能损害其他智能体目标的短期决策等失调行为[37](https://arxiv.org/html/2605.24197#bib.bib37), [11](https://arxiv.org/html/2605.24197#bib.bib11)。这些有害行为使得自动化工作流难以控制,并限制了其在部署中的可靠性。

> *参见图注*

**图1:** 左:工作流中的智能体遭受**后验坍塌**,通用后验保持不确定,无法识别真实角色θ*,导致系统失败。右:AEA注入结构化证据E_t以诱导方差收缩。这使智能体的信念锐化为一个基于证据的后验,确保智能体与特定角色对齐。

为了对这些行为的机制有更严谨的理解,我们通过将多智能体协作过程建模为对潜在效用的贝叶斯推断来系统研究这一问题。我们假设每个独立智能体在工作流执行过程中,基于自身证据(来自工作流系统提示、中间智能体状态以及对其他智能体的观察)推断出一个后验效用。当证据稀疏或过于通用时,智能体推断出的效用将偏离角色特定目标,从而在不同步骤间产生不一致的行为。这一视角将MAS失败与一种效用错误指定联系起来:工作流产生了一个不完整的似然模型,而通用对齐训练产生了一个占主导的先验,无法区分不同智能体的角色。这两种效应都增加了工作流中失调的可能性。基于这些见解,我们提出了**智能体证据归因**(AEA)以增强证据,从而获得更好的智能体后验——这是一种新颖的对齐范式,通过从工作流中提取的额外结构化证据来强化每个智能体的推断效用(如图1右所示)。AEA分析现有MAS轨迹中的轮次级轨迹,识别哪些动作支持或损害任务,并分配上下文感知且针对角色的反馈。这种证据减少了智能体效用后验的模糊性,并改善了协调。由于AEA作用于工作流轨迹,它是一个灵活、与模型无关的框架,能够对齐专有化的多智能体系统,而无需访问其内部表示。我们在广泛且具有挑战性的人类级任务上评估了多种自动化多智能体工作流,包括编程、数据分析、科学推理和竞赛级数学。我们研究了所提框架的两种实例化:**自我反思**,其中MAS使用基础模型从自身轨迹中提取证据;以及**弱到强**泛化,其中使用一个单独训练的证据模型进行智能体失败归因和对齐。在多种模型和基准测试上,与普通的多智能体基线相比,AEA一致地减少了协调失败并提高了可靠性。值得注意的是,这些收益并非来自额外的计算或简单的测试时扩展,而是来自于修正那些本会在工作流中传播的角色级决策错误。这些结果支持了这样一种观点:许多多智能体失败源于效用错误指定,而非能力不足,并且基于证据的对齐是改进MAS自动化工作流的有效机制。

## 2 相关工作

**智能体失调。** 当强化学习中的智能体利用不完美的奖励函数来最大化回报,却没有实现人类的预期目标时,失调行为就会出现[35](https://arxiv.org/html/2605.24197#bib.bib35)。这种奖励黑客现象与著名的古德哈特定律[15](https://arxiv.org/html/2605.24197#bib.bib15)深度吻合,并且在LLM对齐中已广泛观察到,其中偏好数据集编码了诸如冗长或谄媚等虚假线索,模型可以利用这些线索[41](https://arxiv.org/html/2605.24197#bib.bib41)。最近的工作强调,智能体系统也继承了这些风险:目标错误指定和目标错误泛化可能导致智能体在分布偏移下偏离人类意图,随着能力增长而产生系统性失败[4](https://arxiv.org/html/2605.24197#bib.bib4), [33](https://arxiv.org/html/2605.24197#bib.bib33)。这些观察促使我们对多智能体环境中奖励驱动行为进行更细致的研究。

**自动化工作流。** 现代智能体系统依赖自动化工作流生成来分配角色并确定智能体动作的顺序。这些工作流通过提示或高层规划器(即编排器/元智能体)产生,隐含地诱导出每个智能体效用的后验[23](https://arxiv.org/html/2605.24197#bib.bib23)。然而,这个后验可能不稳定:小的提示变化或规划错误会导致智能体最小化努力、传递不充分的信息或误解自身职责[6](https://arxiv.org/html/2605.24197#bib.bib6)。由于底层奖励是通用的而非针对特定角色的,智能体会优化与工作流真实意图不匹配的信号,导致在工作流的各个步骤中出现奖励黑客行为。自动生成的角色与智能体所优化的通用效用之间的这一差距,仍然是实现可信赖、可靠的多智能体系统的核心障碍。在本文中,我们主要关注Kim等人[16](https://arxiv.org/html/2605.24197#bib.bib16)讨论的**集中式MAS**,其中有一个编排器来生成子智能体,因为它代表了当前已部署MAS的主流。

**智能体的奖励建模。** 奖励模型(RM)在将LLM与人类偏好对齐中起着关键作用。近期工作将对齐框架化为贝叶斯推断,其中RM提供塑造学习后验的证据[17](https://arxiv.org/html/2605.24197#bib.bib17), [40](https://arxiv.org/html/2605.24197#bib.bib40)。现有的RM,无论是标量式还是生成式,都假设一个单一的共享目标,没有考虑多智能体工作流的角色特定结构,这限制了它们防止协调失败的能力。我们的工作通过产生上下文感知且针对智能体的信号来解决这一差距。一项相关工作[26](https://arxiv.org/html/2605.24197#bib.bib26),即变分偏好学习(VPL),推断潜在的用户上下文来建模个性化的偏好。然而,VPL需要架构级别的集成(训练特定的编码器/解码器)来学习LLM的潜在分布,而AEA是工作流无关的,纯粹在LLM可访问的文本上下文/提示空间中运作。至关重要的是,我们的理论框架从根本上重新诠释了这一动态:我们并不将奖励信号本身视为优化目标,而是将其建模为**外部观测证据**,用于收缩智能体**内部潜在效用**的方差,从而解决预训练先验固有的后验坍塌问题。

## 3 对智能体失调的冷静审视

### 3.1 问题形式化

我们将自动化工作流形式化为一个带有潜在角色变量的部分可观测多智能体马尔可夫决策过程(POMDP)[34](https://arxiv.org/html/2605.24197#bib.bib34), [46](https://arxiv.org/html/2605.24197#bib.bib46)。系统由元组\(\mathcal{M}=\langle\mathcal{N},\mathcal{S},\mathcal{A},\mathcal{T},\Theta,\mathcal{U}\rangle\)定义。这里,\(\mathcal{N}=\{1,\dots,N\}\)表示智能体角色的集合,而\(\mathcal{S}\)表示由任务上下文、对话历史和工具输出组成的全局状态空间。联合动作空间为\(\mathcal{A}=\times_{i\in\mathcal{N}}\mathcal{A}_i\),其中\(\mathcal{A}_i\)是智能体\(i\)的特定动作空间。\(\mathcal{T}:\mathcal{S}\times\mathcal{A}\to\Delta(\mathcal{S})\)表示状态转移函数,其中\(\Delta(\mathcal{S})\)是状态上的概率单纯形。为了定义角色特定行为,我们引入\(\Theta=\{\theta_1,\dots,\theta_K\}\)作为**潜在效用类型**的有限集合(例如,“严格验证者”、“精确近似者”)。最后,\(\mathcal{U}:\mathcal{S}\times\mathcal{A}\times\Theta\to\mathbb{R}\)表示依赖于角色的效用函数。在任何时间步\(t\),根据工作流编排,单个智能体\(i=\psi(t)\)被激活。该智能体不能直接观察到真实的角色意图。相反,真实的角色分配是一个随机变量\(\boldsymbol{\theta}_i\in\Theta\),服从先验分布\(P(\boldsymbol{\theta})\)。**理想**策略最大化与该潜在类型相关的真实效用:
\[
\pi_i^*(s_t;\theta)\in\arg\max_{a\in\mathcal{A}_i}\; \mathcal{U}(s_t,a;\theta).
\tag{1}
\]

###### 定义3.1(通过决定性错误的智能体失调)
令\(\tau\)为一条轨迹,\(Z(\tau)\in\{0,1\}\)为二元失败指示器(0表示无失败)。时间步\(t\)是一个**决定性错误**,如果\(Z(\tau)=1\),但存在一个动作\(\tilde{a}_t\in\mathcal{A}_i\)使得修改后的轨迹\(\tilde{\tau}\)满足\(Z(\tilde{\tau})=0\)。**智能体失调**发生在智能体的策略\(\hat{\pi}_i\)选择了\(a_t\)(错误)而非\(\tilde{a}_t\),因为\(a_t\)在**通用**后验下最大化期望效用,而不同于特定的角色类型\(\boldsymbol{\theta}_i\):
\[
a_t\in\arg\max_a \mathbb{E}_{\theta\sim P(\cdot\mid Y)}[\mathcal{U}(s_t,a;\theta)],
\tag{2}
\]
其中\(a_t\neq\pi_i^*(s_t;\boldsymbol{\theta}_i)\),且\(Y\)是智能体的证据。

### 3.2 作为角色推断问题的失调

核心障碍在于智能体\(i\)应从可用证据\(Y_t\)中推断出特定的实例化\(\boldsymbol{\theta}_i\)。我们将其建模为贝叶斯推断,其中智能体维护一个信念状态\(b_t(\theta)=P(\boldsymbol{\theta}_i=\theta\mid Y_t)\)。多智能体系统的失败源于**后验坍塌**,其中通用预训练先验主导了工作流提示提供的微弱信号。我们使用总变差(TV)距离来量化两个分布之间的差异:\(\|P-Q\|_{\mathrm{TV}}=\frac{1}{2}\sum|P(x)-Q(x)|\)。为了严格界定后验更新,我们引入了边际似然(证据)上的稳定性条件。

###### 定理3.2(角色后验的\(\epsilon\)-稳定性)
令\(i,j\in\mathcal{N}\)为两个不同的角色。假设先验是\(\epsilon_\pi\)-接近的:\(\|P(\cdot\mid i)-P(\cdot\mid j)\|_{\mathrm{TV}}\leq\epsilon_\pi\),且似然是\(\epsilon_\ell\)-接近的。此外,假设工作流证据\(Y\)信息量足够,使得对于两个角色边际似然都有下界\(\zeta>0\)。那么,后验分布是\(\delta\)-接近的,其中\(\delta=\kappa(2\epsilon_\pi+\epsilon_\ell)\)且\(\kappa\propto\zeta^{-1}\)。因此,智能体\(i\)和\(j\)选择不同动作的概率有上界:
\[
P(\hat{\pi}_i(Y)\neq\hat{\pi}_j(Y))\leq\delta.
\tag{3}
\]
如果理想情况下

相似文章

智能体需要身份标识

Reddit r/AI_Agents

文章认为,当AI智能体在共享工作空间中自主执行操作时,必须为每个操作明确归属到智能体及其负责的人类,以确保监督和信任。没有适当的身份和审计追踪,团队无法安全地将更复杂的任务委托给智能体。