TeamTR:多智能体LLM协调的信任域微调
摘要
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
arXiv:2605.15207v1 公告类型: 新
摘要:多智能体LLM系统在复杂推理中展现出潜力,然而近期评估表明它们往往不如单模型基线。我们发现共享上下文团队在顺序微调时存在一种结构性失效模式:更新一个智能体会改变团队的上下文分布,当后续更新在缓存的轨迹上评估时,这种不匹配会不断累积。我们将此形式化为复合占位偏移,并证明基于过时占位的评估会产生与智能体数量平方成正比的下限损失。相比之下,基于中间占位的评估可将此损失降至线性比例。我们提出TeamTR,一种信任域框架,在每次组件更新后重新采样轨迹,并强制执行每个智能体的散度控制,从而得到严格的每次更新和每阶段改进下限。实验表明,TeamTR平均优于单智能体和顺序基线7.1%,缓解了协调退化,并支持即插即用的组件替换。代码已开源至 https://github.com/Yydc/TeamTR。
查看缓存全文
缓存时间: 2026/05/18 06:37
# TeamTR:多智能体大模型协同的信任域微调 来源:https://arxiv.org/html/2605.15207 ###### 摘要 多智能体大模型系统在复杂推理方面展现出潜力,但近期评估表明,它们往往不如单模型基线。我们识别出共享上下文团队顺序微调中的一种结构性失败模式:更新一个智能体会改变团队的上下文分布,而当后续更新在缓存的轨迹上进行评估时,这种不匹配会累积。我们将此形式化为*累积占位偏移*,并证明使用陈旧占位进行评估会产生一个随智能体数量二次方增长的惩罚项。相比之下,中间占位评估将其降为线性增长。我们提出**TeamTR**,一种信任域框架,在每次组件更新后重新采样轨迹,并对每个智能体施加散度控制,从而得到严格的每步和每阶段改进下界。实验表明,TeamTR 相比单智能体和连续基线平均提升 7.1%,缓解了协同退化,并支持组件的即插即用。代码见 https://github.com/Yydc/TeamTR。机器学习,ICML ## 1 引言 多智能体大模型系统通过协调角色特化的组件进行复杂推理和任务执行 (Yao 等,2022 (https://arxiv.org/html/2605.15207#bib.bib16);Wu 等,2023 (https://arxiv.org/html/2605.15207#bib.bib14);Hong 等,2023 (https://arxiv.org/html/2605.15207#bib.bib36);Du 等,2023 (https://arxiv.org/html/2605.15207#bib.bib34))。尽管取得了成功,但近期评估表明,此类团队往往不如采用 best-of-N 采样的单一强模型 (Kim 等,2025 (https://arxiv.org/html/2605.15207#bib.bib1))。这些失败归因于次优的协调协议 (Cemri 等,2025 (https://arxiv.org/html/2605.15207#bib.bib7))。我们发现 MA-LLM 系统的训练过程可能会引入这种偏差并损害协调。大多数多智能体大模型系统是*共享上下文*团队,其中智能体在公共文本状态上轮流交互 (Wu 等,2023 (https://arxiv.org/html/2605.15207#bib.bib14);Hong 等,2023 (https://arxiv.org/html/2605.15207#bib.bib36))。对此类团队的微调可以通过联合更新(所有智能体同时)或顺序更新(一次一个智能体)进行。联合更新的不稳定性问题在 MARL 中已知,其中耦合的策略变化使得优化难以控制 (Foerster 等,2017 (https://arxiv.org/html/2605.15207#bib.bib62);Kuba 等,2021 (https://arxiv.org/html/2605.15207#bib.bib61)),在 MA-LLMs 中也是如此 (Liu 等,2025a (https://arxiv.org/html/2605.15207#bib.bib48)) (图 1 (https://arxiv.org/html/2605.15207#S1.F1),左)。顺序训练提供了更稳定的替代方案,并被越来越多地用于模块化优化 (Subramaniam 等,2025 (https://arxiv.org/html/2605.15207#bib.bib50))。然而,顺序方法引入了一种失败模式:每次更新都会改变后续智能体看到的上下文分布,而当轨迹在阶段开始时被缓存以降低采样成本时,这种不匹配会累积 (图 1 (https://arxiv.org/html/2605.15207#S1.F1),中)。我们将其形式化为*累积占位偏移*:当后续智能体使用在较早智能体更新之前收集的轨迹进行训练时,产生的分布不匹配会沿着更新序列累积。在步信任域半径 {δi}i=1n\\\{\\delta\_\{i\}\\\}\_\{i=1\}^\{n\} 下,陈旧占位评估产生的惩罚项规模为 O(n2δ ̄)O\(n^\{2\}\\sqrt\{\\bar\{\\delta\}\),而中间占位评估将其降至 O(nδ ̄)O\(n\\sqrt\{\\bar\{\\delta\}\)。这一差距解释了为什么朴素的顺序微调即使每次更新看起来局部有利,也可能导致协同退化。为了解决这个问题,我们提出了 *TeamTR*,一种分阶段信任域框架,在每次组件更新后重新采样轨迹。这确保了每个智能体都在部分更新团队所诱导的分布下进行训练,从而消除了陈旧占位惩罚。每个智能体的信任域控制每次更新引入的占位漂移,使分布偏移保持有界。TeamTR 提供了严格的改进下界:代理增益减去占位偏移和估计误差的显式惩罚。该保证适用于任何更新顺序,并且惩罚可以在训练过程中根据经验进行追踪。 参见图注 图 1:团队目标景观上的更新轨迹。**左**:联合更新遭受耦合漂移和不协调的跳跃。**中**:使用缓存轨迹的朴素顺序更新因陈旧占位而偏离目标。**右**:TeamTR 在每次更新后在新鲜占位下重新采样,稳定到达目标。**插图**:占位分布(上),惩罚项缩放(下)。 我们在轮流协议下实例化 TeamTR,其中每步只有一个智能体活跃。这产生了因式分解:团队级别的散度降低为活跃状态上的单智能体散度,从而实现了易于处理的信任域。一种令牌可分解的行为到更新后 KL 散度产生了可监测的信任域约束,通过从在策略 rollout 中采样的对数概率差异进行估计。实验表明,TeamTR 相比顺序基线提升了性能,稳定了协同,并支持组件的即插即用。我们的贡献总结如下: - • 我们形式化了共享上下文多 LLM 微调中的*累积占位偏移*,并证明陈旧占位评估会产生 O(n2)O\(n^\{2\}\) 的惩罚 (Sec.3 (https://arxiv.org/html/2605.15207#S3))。 - • 我们提出 TeamTR,通过中间占位评估将惩罚降至 O(n)O\(n\),并提供了严格的每更新改进下界 (Sec.4 (https://arxiv.org/html/2605.15207#S4))。 - • 我们通过实验验证 TeamTR 通过稳定训练并使组件可即插即用,优于现有的单智能体和多智能体基线 (Sec.5 (https://arxiv.org/html/2605.15207#S5))。 ## 2 相关工作 ##### 多智能体大模型系统。多智能体大模型系统沿着两个轴演进:推理时的编排和训练时的协调。推理时方法在手工设计的协议下部署冻结模型,包括辩论和共识框架 (Du 等,2023 (https://arxiv.org/html/2605.15207#bib.bib34);Liang 等,2024 (https://arxiv.org/html/2605.15207#bib.bib35))、结构化角色扮演流水线 (Hong 等,2023 (https://arxiv.org/html/2605.15207#bib.bib36);Qian 等,2024 (https://arxiv.org/html/2605.15207#bib.bib37)) 以及通用编排库 (Wu 等,2024 (https://arxiv.org/html/2605.15207#bib.bib38))。训练时方法旨在通过交互轨迹上的监督微调 (Chen 等,2023 (https://arxiv.org/html/2605.15207#bib.bib41);Zeng 等,2024 (https://arxiv.org/html/2605.15207#bib.bib57)) 或使用社会信号或偏好信号的强化学习 (Liu 等,2023a (https://arxiv.org/html/2605.15207#bib.bib43);Lee 等,2023 (https://arxiv.org/html/2605.15207#bib.bib56)) 来内化协调。这些方法通常假设组件是冻结的或采用联合/独立训练;没有明确解决顺序微调下出现的占位偏移。 ##### 多智能体强化学习中的信任域。信任域方法通过约束策略散度保证单调改进 (Schulman 等,2015 (https://arxiv.org/html/2605.15207#bib.bib58),2017 (https://arxiv.org/html/2605.15207#bib.bib59))。将这些保证扩展到多智能体 LLMs 设置由于同步更新带来的非平稳性而颇具挑战。HATRPO 和 HAPPO (Kuba 等,2021 (https://arxiv.org/html/2605.15207#bib.bib61)) 推导出多智能体优势分解,表明顺序更新在异质团队中保持单调改进,但作用于低维连续控制,并未涉及 LLM 消息空间的自动回归、令牌级结构。TeamTR 将这些见解适配到共享上下文的 LLM 团队,通过基于在策略 rollout 计算的令牌级 KL 散度定义信任域。 ##### 分布偏移与模块演化。顺序更新下的分布偏移在 MARL (Foerster 等,2017 (https://arxiv.org/html/2605.15207#bib.bib62)) 和 RLHF (Casper 等,2023 (https://arxiv.org/html/2605.15207#bib.bib64)) 中都是已知的挑战,常通过重要性采样或经验回放池来解决。对于模块化系统演化,模型合并技术 (Ilharco 等,2022 (https://arxiv.org/html/2605.15207#bib.bib66);Wortsman 等,2022 (https://arxiv.org/html/2605.15207#bib.bib67)) 通过操作权重向量来组合能力,但假设独立的训练分布和静态组合。TeamTR 提供了一种动态替代方案:它通过中间占位信任域约束每次顺序更新引起的分布偏移,从而提供理论上保证的改进,并扩展到智能体的即插即用。详细讨论见附录 A (https://arxiv.org/html/2605.15207#A1)。 ## 3 理论框架 我们开发了一个在顺序组件更新下微调多智能体大模型团队的理论框架。核心挑战是*累积占位偏移*:每次更新都会改变团队的状态分布,而为下一个智能体重用陈旧 rollout 会引入一个额外的保证惩罚项,在固定信任域半径下规模为 O(n2δ ̄)O\(n^\{2\}\\sqrt\{\\bar\{\\delta\}\)(其中 n 是智能体数量)。我们的分析识别了这种失败模式,并表明中间占位评估将主导惩罚降至 O(nδ ̄)O\(n\\sqrt\{\\bar\{\\delta\}\)。 ### 3.1 共享上下文团队作为消息-动作 MDP 我们将团队执行建模为折扣 MDP M=(S,{Aj}j=1n,P,r,γ)\\mathcal\{M\}=\(\\mathcal\{S\},\\\{\\mathcal\{A\}\_\{j\}\\\}\_\{j=1\}^\{n\},P,r,\\gamma\),其中 γ∈(0,1)\\gamma\\in\(0,1\),奖励有界 |r|≤Rmax\|r\|\\leq R\_\{\\max\}。状态 s∈Ss\\in\\mathcal\{S\} 是共享的文本上下文(提示加上累积的消息),并且可选地包含由路由器选择的活跃智能体 ID。我们将路由器视为固定的,并将其融入环境动态中。每个智能体 j 选择一个宏动作 aj∈Aja\_\{j\}\\in\\mathcal\{A\}\_\{j\},对应一条消息(令牌序列),团队策略因式分解为 π(a∣s)=∏j=1nπ(j)(aj∣s)。\\pi\(\\mathbf\{a\}\\mid s\)=\\prod\_\{j=1\}^\{n\}\\pi^\{\(j\)\}\(a\_\{j\}\\mid s\)。 我们关注轮流协议:在每个决策步骤,恰好一个智能体活跃并发出一条消息来扩充共享上下文;所有其他智能体采取固定的无操作动作。 ###### 引理 3.1 (轮流协议中的活跃因子约简)。假设轮流协议:对于每个状态 s,存在一个活跃智能体索引 j(s),使得在 π 和 π′ 下所有非活跃智能体都确定性地采取无操作。那么对于任意两个团队策略 π′,π, DKL(π′(⋅∣s)∥π(⋅∣s))=DKL(π′(j(s))(⋅∣s)∥π(j(s))(⋅∣s)),D\_\{\\mathrm\{KL\}\}\{\}\\\!\\big\(\\pi^\{\\prime\}\(\\cdot\\mid s\)\\\|\\pi\(\\cdot\\mid s\)\\big\)=D\_\{\\mathrm\{KL\}\}\{\}\\\!\\big\(\\pi^\{\\prime\(j\(s\)\)\}\(\\cdot\\mid s\)\\\|\\pi^\{\(j\(s\)\)\}\(\\cdot\\mid s\)\\big\),并且仅依赖于活跃动作的函数的期望缩减为关于活跃智能体的期望。 引理 3.1 (https://arxiv.org/html/2605.15207#S3.Thmtheorem1) 解决了实际障碍:联合动作空间 ∏jAj\\prod\_\{j\}\\mathcal\{A\}\_\{j\} 上的团队级别信任域对于 LLM 消息分布是难以处理的,而轮流协议将散度约束缩减为单智能体量。详细证明见附录 B.1 (https://arxiv.org/html/2605.15207#A2.SS1)。 我们研究阶段内顺序更新。设 πcur\\pi\_\{\\mathrm\{cur\}\} 为阶段开始时的团队,σ 为更新顺序(任意排列)。用 π[j←π′]\\pi\[j\\leftarrow\\pi^\{\\prime\}\] 表示将 π 中的智能体 j 替换为 π′ 后得到的团队。我们将中间策略定义如下: πcur=π^0→Updateσ(1)←πtarσ(1)π^1→⋯→π^n−1→Updateσ(n)←πtarσ(n)π^n=π ̄\\pi\_\{\\mathrm\{cur\}\}=\\hat\{\\pi\}^\{0\}\\xrightarrow\[\\text\{Update\}\]\{\\begin\{subarray\}\{c\}\\sigma\(1\)\\leftarrow\\\\ \\pi\_\{\\mathrm\{tar\}\}^\{\\sigma\(1\)\}\\end\{subarray\}\}\\hat\{\\pi\}^\{1\}\\to\\cdots\\to\\hat\{\\pi\}^\{n\-1\}\\xrightarrow\[\\text\{Update\}\]\{\\begin\{subarray\}\{c\}\\sigma\(n\)\\leftarrow\\\\ \\pi\_\{\\mathrm\{tar\}\}^\{\\sigma\(n\)\}\\end\{subarray\}\}\\hat\{\\pi\}^\{n\}=\\bar\{\\pi\}(1) 其中 πtarσ(i)\\pi\_\{\\mathrm\{tar\}\}^\{\\sigma\(i\)\} 表示智能体 σ(i) 的更新后策略,通过(近似)最大化第 3.3 节 (https://arxiv.org/html/2605.15207#S3.SS3) 中的代理目标得到。设 dπd^\{\\pi\} 是 π 诱导的折扣占位,J(π) 是其折扣回报。在每个阶段内,每个智能体最多更新一次;因此在第 i 步,智能体 j=σ(i) 的更新前策略是 π^i−1\\hat\{\\pi\}^\{\\,i\-1\} 中对应的因子,为简洁起见我们记作 πcurσ(i)\\pi\_\{\\mathrm\{cur\}\}^\{\\sigma\(i\)\}。 ### 3.2 令牌分解的信任域 为了控制占位偏移,我们约束*行为到更新后*的 KL 散度,该散度可以直接从更新前策略生成的轨迹中估计,无需从更新后策略中进行策略采样。对于参考策略 ρ 和策略 π,π′,我们定义: DKL(π∥π′)tokρ≔Es∼dρDKL(π(⋅∣s)∥π′(⋅∣s))。D\_\{\\mathrm\{KL\}\}\{\}\_\{\\mathrm\{tok\}\}^\{\\rho\}\(\\pi\\\|\\pi^\{\\prime\}\)\\;\\coloneqq\\;\\mathbb\{E\}\_\{s\\sim d^\{\\rho\}\}D\_\{\\mathrm\{KL\}\}\{\}\\\!\\big\(\\pi\(\\cdot\\mid s\)\\\|\\pi^\{\\prime\}\(\\cdot\\mid s\)\\big\)。\(2\) 这里的 tok\\mathrm\{tok\} 强调对于自回归消息的*令牌可分解性*:消息级别的 KL 通过链式法则恰好分解为令牌级别 KL。设 πu≔π(j)(⋅∣s,xδ\\widehat\{D\_\{\\mathrm\{KL\}\}\{\}\}\_\{\\mathrm\{tok\}\}\>\\delta。TeamTR 使大部分更新保持在区域内,而 PPO/GRPO/DAPO 变体则表现出明显更高的区域外比率。 图 4 (https://arxiv.org/html/2605.15207#S5.F4)(b) 比较了各训练阶段累积测量改进与通过将记录的代理项和 KL 项代入定理 3.6 (https://arxiv.org/html/2605.15207#S3.Thmtheorem6) 得到的累积保证下界。图 4 (https://arxiv.org/html/2605.15207#S5.F4)(c) 进一步绘制了每阶段保证值与相应经验改进的关系,报告了秩相关性和违规率(保证值超过测量改进的点的比例)。在 AIME25 上,保证值保持保守,同时以一致的差距跟踪进展。 参见图注 图 4:信任域执行与保证跟踪 (AIME25)。(a) 每次更新令牌级 KL 散度的分布;红色虚线标记阈值 δ,百分比表示区域外比率 (DKL^tok>δ\\widehat\{D\_\{\\mathrm\{KL\}\}\{\}\}\_\{\\mathrm\{tok\}\}\>\\delta)。(b) 累积测量改进与保证下界 (定理 3.6 (https://arxiv.org/html/2605.15207#S3.Thmtheorem6)) 的比较;ρ 表示秩相关性。(c) 每阶段保证值与经验改进的校准;“viol” 表示边界被违反的阶段比例。 ### 5.7 令牌级别相似文章
面向在线策略蒸馏的信任区域行为融合
信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。
SAT:用于无协调器即插即用多LLM训练的序列化智能体调优,具有单调改进保证
本文介绍了序列化智能体调优(SAT),一种无协调器的多LLM团队训练范式,提供单调改进保证和即插即用不变性,使较小的模型能够超越较大的模型。
信任域逆强化学习:利用局部策略更新进行显式对偶上升
本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。
TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。
TRACE:面向长周期智能体安全的轨迹风险感知压缩方法
本文提出 TRACE,一种面向长周期 LLM 智能体的轨迹级安全检测方法,通过将完整轨迹证据压缩为潜在状态,更好地聚合分散的风险信号,在多个基准上达到最先进的准确率。