面向异构大语言模型多智能体系统的迭代式批评与路由控制器

arXiv cs.AI 2026/05/12 04:00 论文

摘要

本文介绍了一种用于多智能体大语言模型系统的批评与路由控制器，将协调过程建模为序贯决策问题。该方法利用策略梯度优化控制器以实现迭代优化，在表现优于基线方法的同时，降低了对顶级模型的依赖。

arXiv:2605.08686v1 公告类型：新增摘要：多智能体大语言模型（LLM）系统通常依赖一个控制器来协调异构模型池，然而现有控制器通常局限于单次路由：它们仅选择一次模型并直接返回其输出。这种仅路由的设计缺乏对中间草稿进行批评或支持迭代优化的机制。为了解决这一局限性，我们提出了一种批评与路由控制器，将多智能体协调建模为序贯决策问题。在每个回合中，控制器评估当前草稿，决定是停止还是继续，并在需要时选择下一个智能体以进行进一步优化。我们将此过程建模为一个具有显式智能体利用约束的有限时域马尔可夫决策过程（MDP），设计了针对多轮控制器决策的综合奖励机制，并在拉格朗日松弛目标下通过策略梯度优化控制器。在多个异构多智能体系统和七个推理基准上的广泛实验表明，我们的方法始终优于最先进的基线方法，并显著缩小了与最强智能体之间的差距，同时其调用次数不到总调用量的 25%。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:20

# 面向异构大语言模型多智能体系统的迭代式批判与路由控制器

来源: https://arxiv.org/html/2605.08686

###### 摘要

多智能体大语言模型（LLM）系统通常依赖一个控制器来协调异构模型池，但现有的控制器通常局限于单次路由：它们只选择一次模型并直接返回其输出。这种仅基于路由的设计缺乏对中间草稿进行批判或支持迭代优化的机制。为了解决这一局限性，我们提出了一种**批判与路由控制器（critique-and-routing controller）**，将多智能体协调建模为一个序贯决策问题。在每一轮交互中，控制器评估当前的草稿，决定停止还是继续，并在需要时选择下一个智能体进行进一步优化。我们将此过程形式化为一个带有显式智能体利用约束的有限视界马尔可夫决策过程（MDP），设计了跨多轮控制器决策的复合奖励，并在拉格朗日松弛目标下通过策略梯度优化控制器。在多个异构多智能体系统和七个推理基准上的广泛实验表明，我们的方法始终优于最先进的基线方法，并大幅缩小了与最强智能体之间的差距，同时对其调用次数不到总调用量的 25%。

## 1 引言

多智能体大语言模型（LLM）系统在实践中日益普及 (Talebirad and Nadiri, 2023; Li et al., 2023; Wu et al., 2024; Li et al., 2024c)。一种代表性的部署模式是由控制器协调的**智能体池（agent pool）**，控制器在异构智能体之间进行选择，以平衡质量和成本 (Ding et al., 2025)。大多数现有的协调机制将控制器主要视为单次路由器，选择单个模型并将结果响应返回给用户 (Ding et al., 2024; Lu et al., 2024)。然而，许多查询，尤其是那些需要复杂推理的查询，很难在一轮内解决：初始草稿可能不完整或不正确，而反馈可以在后续轮次中实现显著的改进 (Motwani et al., 2024)。然而，基于单次路由的协调机制缺乏这样的反馈回路：一旦选择了智能体，其响应就会直接返回，没有纠正的机会。

为了减轻单次路由的局限性，最近的工作从不同角度探索了多轮协调。先前工作 (Poon et al., 2026) 提出了一种上下文多臂老虎机框架，其中路由器使用用户反馈在轮次间更新其选择策略。Router-R1 (Zhang et al., 2025) 通过强化学习（RL）训练一个 LLM 路由器以执行多轮路由和聚合，但主要针对检索式场景，其中查询被分解为子查询并路由以收集信息。Jin 等人 (2025a) 的研究人员通过让控制器基于外部提供的预算模式进行条件判断，研究了成本可控的协调，从而在不同的预算下启用不同的路由行为。尽管取得了这些进展，但这些方法主要强调**路由**，而未充分探索控制器到智能体的**交互式批判**，以及跨异构智能体的显式工作负载平衡。

基于这些观察，我们提出以下两个问题：

1. **Q1：** 我们能否设计一个控制器，能够联合 (i) 路由到合适的智能体，(ii) 批判和验证中间草稿，以及 (iii) 决定何时停止优化？
2. **Q2：** 我们能否使用原则性目标来优化这样的控制器，该目标联合考虑最终答案质量和系统级约束（如智能体间的平衡利用）？

##### 挑战

回答这些问题带来了三个关键挑战。首先，**联合路由与验证：** 与仅选择模型的单次路由器不同，控制器必须同时评估响应草稿的质量，决定停止还是继续优化，并在需要优化时选择下一个智能体。这些决策紧密耦合：验证塑造下一次生成，而停止决策取决于控制器对当前草稿的评估。

> 图 1: 控制器在多个轮次中与异构智能体池交互，评估来自智能体的先前响应，并决定是否退出或优化响应。

其次，**轨迹级信用分配：** 在多轮交互过程中，同一轨迹不同轮次的路由和验证决策可能对最终答案的贡献不均等。然而，常用的基于结果的奖励模糊了这些差异，掩盖了哪些轮次主要导致成功或失败。第三，**质量-利用权衡：** 仅优化答案质量会导致过度使用最强（通常也是最昂贵）的智能体，从而削弱维持异构智能体池的目的。因此，一个实用的控制器应该能够通过多轮交互提高响应质量，同时在智能体之间平衡利用率。

### 1.1 贡献

为了解决这些挑战，我们研究了一种迭代式批判与路由控制器，并开发了一种基于强化学习（RL）的多轮协调框架，将多智能体路由形式化为序贯交互控制。控制器同时充当批评家/验证器和路由器：在每一轮中，它评估上一轮选定智能体产生的草稿响应，并决定是停止还是调用另一个智能体进行进一步优化。我们将此形式化为一个带有显式智能体利用约束的有限视界马尔可夫决策过程（MDP）。我们的主要贡献如下：

- **序贯交互形式化。** 我们提出了一种具有批评家和路由器双重角色的多轮控制器，并将多智能体协调形式化为用于累积奖励最大化的有限视界 MDP。在此形式化中，每个控制器动作联合指定了对先前响应的评估、停止/继续决策以及要调用的下一个智能体。为了防止过度依赖最强智能体，我们进一步施加了显式的智能体利用约束。
- **奖励与利用感知目标。** 我们引入了一种复合基于规则的奖励，评估轨迹上的**批评和路由**决策。为了便于优化，我们通过拉格朗日松弛将约束问题转化为无约束问题，产生一个可以用标准策略梯度方法优化的修改后的奖励最大化目标。
- **实证评估。** 通过对具有不同控制器、智能体和基准的多样化异构多智能体系统进行广泛实验，我们证明我们的方法在显著优于基线的同时，保持了与最强智能体相当的使用率。

### 1.2 相关工作

##### 多智能体协作架构

先前关于多智能体 LLM 系统的工作大致可分为去中心化的**基于角色**的协作和集中式的**控制器-智能体**编排。在基于角色的系统中，智能体被分配不同的角色，并通过预定义的工作流进行交互 (Wu et al., 2024; Hong et al., 2023; Qian et al., 2024)。一个密切相关的变体是**级联**专业化，其中不同的智能体以固定的顺序被调用以进行生成、批判和优化，如 Actor-Critic 风格的协作 (Estornell et al., 2024) 和生成-验证-优化管道 (Motwani et al., 2024)。最近的工作还考虑了查询分解和路由，其中复杂任务被分解为子问题并分配给专门的智能体 (Shao et al., 2025; Li et al., 2024a; Rasal and Hauer, 2024)。另一类工作研究了具有星型拓扑架构的集中式**控制器-智能体**系统，其中单个控制器协调异构专家池，并为每个查询决定调用哪个智能体 (Chen et al., 2023; Ding et al., 2024; Ong et al., 2024; Ding et al., 2025; Jin et al., 2025a)。我们的工作侧重于后者，并在下面讨论最相关的控制器设计文献。

##### 集中式控制器-智能体编排

在控制器-智能体系统中，协调策略从轻量的基于分类器的路由到推理驱动的决策制定不等。早期方法将协调形式化为单次模型选择问题，使用分类 (Lu et al., 2024; Ding et al., 2025) 或基于表征学习的路由器 (Mei et al., 2025; Chen et al., 2024) 将每个查询分派给单个智能体。最近，Poon 等人 (2026) 将多智能体协调视为上下文老虎机问题，考虑到多轮用户-智能体交互，并允许响应质量随着观察到的人类反馈而随时间提高。Router-R1 (Zhang et al., 2025) 和 CoRL (Jin et al., 2025a) 进一步采用具备推理能力的 LLM 作为控制器，并应用 RL 来培养推理感知的路由策略。尽管取得了这些进展，现有方法大多将协调视为孤立的路由决策，而不是序贯交互过程。此外，它们通常缺乏显式的利用约束，使得对异构智能体的平衡和高效利用尚未得到充分探索。

## 2 问题背景

### 2.1 多智能体系统的控制器设计

我们考虑一个具有异构智能体池 $\mathcal{M}=\{\pi_1, \pi_2, ..., \pi_K\}$ 的多智能体 LLM 系统，如图 1 所示，其中智能体在能力和成本上有所不同。控制器协调这个池子以响应传入的查询。与单次路由不同（在单次路由中，控制器选择单个模型并直接返回其响应而不进行验证），我们研究这样一种设置：控制器通过选择智能体、评估/验证选定智能体的响应以及决定是继续还是终止交互，在多轮中协调模型池。因此，问题不仅仅是在一轮中识别查询的最佳模型（这在实践中通常很困难），而是学习一个控制器策略，该策略在满足智能体间系统级使用约束的同时，最大化多轮交互中的最终任务性能。控制器应该在异构智能体之间分配调用，以便通过序贯交互提高答案质量，而不崩溃为始终调用最强或最昂贵的模型。

### 2.2 现有解决方案还不够好吗？

尽管现有工作已经从不同角度探索了多智能体系统中的控制器设计，但它们仍然存在一些局限性。下面，我们讨论两个最相关的工作方向并详细描述它们的局限性。

**Router-R1。** Zhang 等人 (2025) 的研究人员为信息检索场景中的多智能体 LLM 系统引入了一种基于 RL 的控制器。类似于 Search-R1 (Jin et al., 2025b)，他们的方法将复杂查询分解为子查询，并将其依次路由到智能体以收集信息。然而，这种设计主要针对检索导向的场景，其中查询是可分解的，并且每个智能体返回的信息通常被假定为正确且可直接用于后续推理，而无需显式验证。在这种设计下，不正确或误导性的中间输出可能会在推理链中传播。此外，Router-R1 主要通过结果级任务奖励进行优化，这在多轮轨迹中提供的信用分配有限：不同阶段做出的路由决策可能对最终结果的贡献不均等，但奖励信号并未清楚地识别哪些中间行动应获得奖励。

**成本可控路由。** CoRL (Jin et al., 2025a) 从成本控制的角度研究路由，通过在不同的推理预算下诱导不同的控制器行为。为此，他们为低、中、高预算模式手动设计了单独的提示模板，路由策略随之适应。然而，预算模式必须在推理时明确指定，而不是从查询和交互历史中自主推断。此外，他们的框架专注于在外部施加的预算设置下的路由，并没有建模带有批判、验证和停止决策的迭代控制器-智能体交互。他们的目标也没有明确鼓励跨异构智能体的平衡利用。

## 3 基于 RL 的多轮协调方法

在本节中，我们提出了一种**迭代式批判与路由控制器**，将智能体协调建模为序贯决策问题。我们将此形式化为一个带有显式负载均衡约束的有限视界 MDP (Puterman, 2014)，并使用策略梯度算法优化控制器。

### 3.1 多智能体 LLM 系统的多轮协调

给定用户查询 $\mathbf{q}$，控制器从池 $\mathcal{M}=\{\pi_1, \pi_2, ..., \pi_K\}$ 中依次选择智能体并与之交互，以迭代优化响应，然后产生最终输出。协调过程在多轮中展开如下：

- **第 1 轮（初始路由）。** 对于传入的查询 $\mathbf{q}$，控制器（记为 $\pi_\theta$ 并由 $\bm{\theta}$ 参数化）选择一个智能体以产生初始响应：
  $$ \mathbf{y}_1 = \pi_\theta(\cdot \mid \mathbf{q}, \mathbf{c}), \quad m_1 = f(\mathbf{y}_1) \quad \longrightarrow \quad \mathbf{g}_1 = \pi_{m_1}(\cdot \mid \mathbf{q}) $$
  其中 $\mathbf{c}$ 表示用于初始路由的系统提示，$f: \mathcal{Y} \to \mathcal{M}$ 是一个解析函数，从控制器的输出文本 $\mathbf{y}$ 中提取离散的路由决策。

- **第 2 轮（评估与重新路由）。** 在观察到智能体响应 $\mathbf{g}_1$ 后，控制器评估...

面向异构大语言模型多智能体系统的迭代式批评与路由控制器

相似文章

多智能体RL何时能提升LLM工作流？工作流、规模与策略共享的权衡

跨四个LLM层级的代理工作路由：编排器、顾问、深度推理、Premier

基于约束流形控制的安全且可泛化的分层多智能体强化学习

从早期经验中学习智能体路由

RACL：用于连续元启发式学习的推理智能体控制层

提交意见反馈