学习交接：在接口约束下可证明收敛的工作流学习

arXiv cs.AI 2026/05/20 04:00 论文

摘要

本文将在多智能体LLM流水线中的工作流学习形式化为一个接口约束的半马尔可夫决策过程（IC-SMDP），并提出IC-ICQQ，一种异步分布式Q学习算法，具有有限样本界，可分解误差源，为分布式部分可观测性下的神经Q学习提供了首个有限样本保证。

arXiv:2605.19140v1 Announce Type: new 摘要：我们研究了在专用智能体通过共享工件交接控制的场景中的工作流学习，每个智能体仅观察该工件的局部函数及其自身私有状态，且没有集中式学习者访问联合轨迹——这是跨越组织、供应商或信任边界的多智能体LLM流水线的运行机制。我们将该机制形式化为一个接口约束的半马尔可夫决策过程（IC-SMDP），其决策时期发生在交接时刻，并设计了IC-$Q$，一种异步分布式$Q$学习算法，其中每次交接的跨智能体协调恰好是一个标量。我们的主要结果是神经IC-$Q$的一个有限样本界，该界在随机选项持续时间折扣下分解为三个独立可控的误差源：神经函数逼近误差、接口表示间隙以及混合时间残差。建立该界需要将近似信息状态（AIS）框架从单智能体原始步MDP提升到多智能体SMDP，并在随机持续时间下控制马尔可夫噪声，这两者均未在先前工作中完成。据我们所知，这是分布式部分可观测性下神经$Q$学习的首个有限样本保证。四个实验：一个逐项验证边界的受控合成IC-SMDP、多LLM数学推理、多智能体路由和多智能体CPU编程，表明IC-$Q$与集中式预言机匹配，且没有任何智能体观察联合轨迹，三个误差源各自沿其对应轴按边界预测的方式缩放。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:28

# 学习交接：接口约束下可证明收敛的工作流学习  
来源: https://arxiv.org/html/2605.19140  

Jiayu Li  
斯特恩商学院  
纽约大学  
纽约, NY 10012  
jl15681@stern\.nyu\.edu  
&  
Enpei Zhang  
计算机科学系  
达特茅斯学院  
汉诺威, NH 03755  
enpei\.zhang\.gr@dartmouth\.edu  
&  
Dawei Zhou  
计算机科学系  
弗吉尼亚理工大学  
布莱克斯堡, VA 24061  
zhoud@vt\.edu  
Elynn Chen  
斯特恩商学院  
纽约大学  
纽约, NY 10012  
elynn\.chen@stern\.nyu\.edu  
&  
Yujun Yan  
计算机科学系  
达特茅斯学院  
汉诺威, NH 03755  
yujun\.yan@dartmouth\.edu  

###### 摘要  
我们研究了一种工作流学习设定，其中专用代理通过共享工件进行交接控制，每个代理仅能观测该工件的局部函数及其自身私有状态，并且没有任何中央学习器可以访问联合轨迹——这是跨越组织、供应商或信任边界的多智能体LLM管线的运行模式。我们将这种模式形式化为接口约束的半马尔可夫决策过程（IC-SMDP），其决策时刻发生在交接时间点，并设计了IC-QQ，一种异步去中心化Q学习算法，在每次交接时跨代理协调仅需一个标量。我们的主要结果是神经IC-QQ的有限样本界，该界分解为三个独立可控的误差源：神经函数逼近误差、接口表示间隙以及混合时间残差，在随机选项持续期折扣下成立。建立该界需要将近似信息状态（AIS）框架从单智能体原始步长MDP提升到多智能体SMDP，并在随机持续期下控制马尔可夫噪声——这两点在以往工作中均未实现。据我们所知，这是去中心化部分可观测性下神经Q学习的首个有限样本保证。四项实验：一个受控的合成IC-SMDP（逐项验证该界）、多LLM数学推理、多智能体路由以及多智能体CPU编程，表明IC-QQ在没有代理观测联合轨迹的情况下能够匹配集中式oracle，并且三个误差源各自的尺度沿着相应轴遵循该界预测。  

## 1 引言  

多智能体LLM系统协调专用代理——如规划者、编码者、测试者、检索者、验证者hong2023metagpt (https://arxiv.org/html/2605.19140#bib.bib19);huang2023agentcoder (https://arxiv.org/html/2605.19140#bib.bib21);gottweis2025aiscientist (https://arxiv.org/html/2605.19140#bib.bib18);yao2023react (https://arxiv.org/html/2605.19140#bib.bib40)——组成工作流，其端到端性能由工作流的结构方式决定：哪个代理首先行动、何时转移控制、以及它们之间传递什么信息。设计这类工作流出现了两种不同模式。**集中式**模式假设单个设计者具有全局可见性，能访问代理轨迹。手工设计的工作流hong2023metagpt (https://arxiv.org/html/2605.19140#bib.bib19);wu2023autogen (https://arxiv.org/html/2605.19140#bib.bib37)预先固定结构，而学习型工作流生成器zhuge2024gptswarm (https://arxiv.org/html/2605.19140#bib.bib44);zhang2024aflow (https://arxiv.org/html/2605.19140#bib.bib41);hu2024adas (https://arxiv.org/html/2605.19140#bib.bib20);fan2024workflowllm (https://arxiv.org/html/2605.19140#bib.bib15);yue2025daao (https://arxiv.org/html/2605.19140#bib.bib33)从联合轨迹数据中优化它。这种模式已经发展成熟，并且在集中化假设成立的情况下效果良好。**顺序去中心化**模式在结构上截然不同。生产系统越来越多地构建为角色专用代理的管线，每次只传递一个工件，例如MetaGPThong2023metagpt (https://arxiv.org/html/2605.19140#bib.bib19)的流水线架构、AgentCoderhuang2023agentcoder (https://arxiv.org/html/2605.19140#bib.bib21)的编程者到测试者管线、AutoGenwu2023autogen (https://arxiv.org/html/2605.19140#bib.bib37)的基于回合的消息传递。新兴的代理间协议anthropic2024mcp (https://arxiv.org/html/2605.19140#bib.bib1);google2025a2a (https://arxiv.org/html/2605.19140#bib.bib17)将顺序消息交换标准化为协调原语。当这样的管线跨越组织、供应商或信任边界时yang2025agentnet (https://arxiv.org/html/2605.19140#bib.bib39)，集中式假设失效：训练时没有任何一方持有联合轨迹，代理只能看到它们收到的工件以及自身的私有状态，而思维链、草稿板和专有提示模板在设计上、出于安全过滤或API合同的原因不会被暴露到代理边界之外。由此产生的决策问题结合了部分可观测性与潜在异质性RLchen2024reinforcement (https://arxiv.org/html/2605.19140#bib.bib14)中研究的跨环境异质性，每个代理的局部视图实质上导致了一个不同的学习问题。迄今为止，这种模式下的工作流学习仅通过手工设计的自适应规则yang2025agentnet (https://arxiv.org/html/2605.19140#bib.bib39)来处理，缺乏决策理论基础或收敛保证。本文提供了这样的基础。  

我们在顺序去中心化模式下研究工作流学习，该模式具有四个区别于集中式设定的操作条件：(i) **顺序交接控制**——每一步只有一个代理行动，并通过共享工件传递控制权；(ii) **训练和执行都去中心化**——任何阶段都没有一方访问联合轨迹；(iii) **接口受限观测**——每个代理基于它收到的工件加上自身私有状态做决策，内部状态不暴露于代理边界之外；(iv) **有限样本保证**——部署在有限的API和计算预算下运行，因此设计者需要知道多少样本预算就足够了，而不仅仅是最终能收敛。这种粒度的有限样本分析最近推动了相邻领域的理论进展，包括迁移Q学习chen2025transfer (https://arxiv.org/html/2605.19140#bib.bib13);chai2025transfer (https://arxiv.org/html/2605.19140#bib.bib8)以及结构化潜在异质性下的高维序列决策chen2025highdim (https://arxiv.org/html/2605.19140#bib.bib11)，这促使我们对去中心化代理工作流进行类似的处理。  

**为什么现有框架无法扩展。** 有四条先前的理论线与这种模式相关；每一条都至少违反了上述四个条件之一。  
∙ 去中心化POMDP和CTDE。Dec-POMDPbernstein2002decpomdp (https://arxiv.org/html/2605.19140#bib.bib3);nair2005networked (https://arxiv.org/html/2605.19140#bib.bib26);oliehoek2016decpomdp (https://arxiv.org/html/2605.19140#bib.bib27);oliehoek2008exploiting (https://arxiv.org/html/2605.19140#bib.bib28)在局部观测下建模协作式多智能体控制，但假设**并发**行动和联合奖励，违反了顺序性。集中式训练与去中心化执行lowe2017maddpg (https://arxiv.org/html/2605.19140#bib.bib25);rashid2020qmix (https://arxiv.org/html/2605.19140#bib.bib30);foerster2018coma (https://arxiv.org/html/2605.19140#bib.bib16);sunehag2018vdn (https://arxiv.org/html/2605.19140#bib.bib35);iqbal2019actorattentioncritic (https://arxiv.org/html/2605.19140#bib.bib22)放松了执行要求，但在训练时需要访问联合轨迹，违反了去中心化。相关的迁移RL公式化在异构任务之间共享信息chen2026data (https://arxiv.org/html/2605.19140#bib.bib10);chai2026optimistic (https://arxiv.org/html/2605.19140#bib.bib9)同样假设存在一个协调者，能够观测联合轨迹或任务级结构，而跨供应商边界无法获得这些信息。  
∙ 选项框架。选项sutton1999options (https://arxiv.org/html/2605.19140#bib.bib36);bacon2017optioncritic (https://arxiv.org/html/2605.19140#bib.bib2);bradtke1994smdp (https://arxiv.org/html/2605.19140#bib.bib5);precup2000options (https://arxiv.org/html/2605.19140#bib.bib29)提供了自然的时间扩展原语，但假设在每个决策时刻有一个元控制器观测**完整状态**，违反了接口受限观测。最近关于具有有限视界保证的先验对齐元RL的研究zhou2025prior (https://arxiv.org/html/2605.19140#bib.bib43)在元控制器层面继承了同样的完全观测假设。  
∙ 近似信息状态。AIS框架subramanian2022ais (https://arxiv.org/html/2605.19140#bib.bib34);kara2022finite (https://arxiv.org/html/2605.19140#bib.bib24);sinha2024agentstate (https://arxiv.org/html/2605.19140#bib.bib32);sinha2024periodic (https://arxiv.org/html/2605.19140#bib.bib31)处理单智能体在原始步长MDP中的部分可观测性。将其提升到由N个代理通过交接组合的去中心化AIS观测，需要在随机折扣γ^{τ_{k+1}}下以及不交的观测空间上控制AIS误差——这两点以前都未做过。kao2022common (https://arxiv.org/html/2605.19140#bib.bib23)的公共信息扩展通过一个虚构协调者处理并发Dec-POMDP，不适用于顺序交接控制。密切相关的是非平稳RL设定，其中环境本身在episode之间变化chai2025deep (https://arxiv.org/html/2605.19140#bib.bib7)，迁移保证需要IC-SMDP未施加的额外结构假设。  
∙ 多智能体LLM编排。最近的系统yang2025agentnet (https://arxiv.org/html/2605.19140#bib.bib39);zhuge2024gptswarm (https://arxiv.org/html/2605.19140#bib.bib44);zhang2024aflow (https://arxiv.org/html/2605.19140#bib.bib41);hu2024adas (https://arxiv.org/html/2605.19140#bib.bib20)通过学习或手工设计的LLM代理DAG来路由任务。AgentNetyang2025agentnet (https://arxiv.org/html/2605.19140#bib.bib39)在精神上最为接近，但通过手工设计的自适应规则运行（边权重的移动平均、基于检索的启发式、能力向量更新），没有Bellman递归，也没有收敛保证，违反了有限样本保证。工作流学习也在经济和运营决策中得到了研究，其中跨市场异质性下的有限样本最优性chen2026transfer (https://arxiv.org/html/2605.19140#bib.bib12);zhang2025transfer (https://arxiv.org/html/2605.19140#bib.bib42)推动了近期的理论进展——但这些都不直接适用于我们研究的基于交接的接口模式。完整讨论见附录LABEL:sec:related_work。  

**贡献。** 我们提供了第一个尊重所有四个条件的框架，并证明了其内部的有限样本收敛。  
∙ **形式模型。** 我们引入了接口约束的半马尔可夫决策过程（IC-SMDP）（§2 (https://arxiv.org/html/2605.19140#S2)），并展示了它在交接时刻诱导出一个定义良好的SMDP，AIS框架可以提升到该SMDP上，并带有可量化的接口间隙(ε_φ, δ_φ)。  
∙ **去中心化算法。** 我们设计了IC-QQ（§3 (https://arxiv.org/html/2605.19140#S3)），一种异步Q学习算法，其中每次交接时的跨代理协调仅为一个标量——在跨供应商部署的带宽和API调用约束下，通信开销最小。  
∙ **有限样本收敛。** 我们证明了一个有限样本界（定理1 (https://arxiv.org/html/2605.19140#Thmtheorem1), §4 (https://arxiv.org/html/2605.19140#S4)），分解为三个独立可控的误差源——神经逼近误差、接口表示间隙和混合时间残差。出现了先前分析未面临的三个挑战：随机折扣而非固定折扣下的Bellman压缩、AIS间隙在选项尺度而非原始步长尺度传播、以及随机选项持续期下的马尔可夫噪声控制。据我们所知，这是通过近似信息状态在去中心化部分可观测性下的**首个**此类保证。  
∙ **实验验证。** 在四项任务上：一个隔离每个误差项的受控合成IC-SMDP、多LLM数学推理、多智能体路由和多智能体CPU编程，IC-QQ匹配了集中式oracle，并在没有任何代理观测联合轨迹的情况下恢复了最优预定义工作流。合成IC-SMDP进一步逐项验证了该界，三个误差源各自沿相应轴按预测的尺度变化（§5 (https://arxiv.org/html/2605.19140#S5)）。  

## 2 接口约束的半马尔可夫决策过程  

现代多智能体LLM系统通过在专用代理之间传递工件——例如消息、中间解、草稿板片段——来进行协调。规划LLM将任务描述传递给编码LLM，编码LLM将代码传递给测试LLM。没有一个组件能看到全貌：规划者看不到编码者的思维链，也没有集中式观察者能看到联合轨迹。我们将其形式化为**接口约束的半马尔可夫决策过程**（IC-SMDP）。尽管系统在单个代理步长的原始时间尺度上演化，但其决策结构发生在更粗粒度的交接时刻，其中每次代理调用都是一个时间扩展的选项，半马尔可夫性质自然产生。  

### 2.1 形式框架  

具有N个代理[N]:={1,…,N}的IC-SMDP是一个元组 I=(X, M, {L_i, A_i, φ_i}_{i∈[N]}, P, r, γ, ρ_0)。  

**状态。** 三层状态，根据谁可以观测它们来区分。**全局潜在状态** x_t ∈ X 控制底层任务动态，不被任何代理观测。**接口状态** m_t ∈ M 是在代理之间传递的工件——跨代理信息流的**唯一**通道。**私有状态** ℓ_t^{(i)} ∈ L_i 是代理 i 的本地状态，不被其他代理观测。在时刻 t，恰好有一个代理 c_t ∈ [N] 处于活动状态。  

**观测：接口约束。** 代理 c_t 仅观测到 o_t = φ_{c_t}(m_t, ℓ_t^{(c_t)}) ∈ O_{c_t}, (1) 其中 φ_i: M × L_i → O_i 是代理特定的观测映射。隐含两个结构限制：  
(IC1) **通道限制**——当 c_t 交接给 c_{t+1}=j 时，j 接收到的唯一信息是 m_{t+1}；  
(IC2) **表示限制**——代理 i 的决策是 φ_i(m_t, ℓ_t^{(i)}) 的函数，而不是直接基于 m_t。(IC1) 排除了 CTDE 式学习lowe2017maddpg (https://arxiv.org/html/2605.19140#bib.bib25);rashid2020qmix (https://arxiv.org/html/2605.19140#bib.bib30);foerster2018coma (https://arxiv.org/html/2605.19140#bib.bib16)，它假设联合轨迹访问；(IC2) 排除了直接应用选项框架sutton1999options (https://arxiv.org/html/2605.19140#bib.bib36)，它假设每个决策时刻完全状态观测。  

**动作：本地操作与后继选择。** 代理 c_t 选择一个本地动作 a_t ∈ A_{c_t} 以及一个后继者

学习交接：在接口约束下可证明收敛的工作流学习

相似文章

多智能体RL何时能提升LLM工作流？工作流、规模与策略共享的权衡

奖励驱动的大语言模型代理工作流：融合POMDP路由与自我修正的自主决策

SCALE：面向智能体工作流调度的可扩展交叉注意力学习与外推方法

Connect the Dots：通过强化学习训练LLM以具备跨域泛化能力的长期生命周期智能体

基于约束流形控制的安全且可泛化的分层多智能体强化学习

提交意见反馈