基于约束流形控制的安全且可泛化的分层多智能体强化学习

arXiv cs.AI 2026/06/24 04:00 论文

multi-agent reinforcement-learning safety hierarchical-rl constraint-manifold generalization control-theory

摘要

本文提出了一种分层多智能体强化学习框架，该框架通过低层的约束流形强制执行硬安全约束，同时通过高层策略学习实现有效协调，提供了理论上的安全保障，并实现了近乎完美的安全率和良好的泛化能力。

arXiv:2606.24010v1 公告类型：新摘要：多智能体系统广泛应用于需要严格安全约束下的协调行为的安全关键应用。现有方法面临一个基本权衡：基于学习的方法实现了强大的实证性能但缺乏理论安全保证，而基于控制理论的方法强制安全但往往导致过于保守和低效的行为。我们提出了一种分层多智能体强化学习框架，该框架在低层通过约束流形在温和假设下强制执行硬安全约束，同时通过高层策略学习实现有效协调。我们的方法在多智能体设置中提供了理论安全保证，并产生平稳的学习动态，从而实现稳定高效的训练。实验上，我们的方法在保持近乎完美的安全率的同时实现了有竞争力的性能，并有效泛化到不同数量的智能体和障碍物。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:44

# 基于约束流形控制的安全且可泛化的分层多智能体强化学习  
**来源：** https://arxiv.org/html/2606.24010  
Zihao Guo¹, Jianing Zhao¹, Ling Li¹, Hao Liang¹, Giuseppe Loianno², Yali Du¹,³,¹  

¹ 伦敦国王学院  
² 加州大学伯克利分校  
³ 艾伦·图灵研究所  

通讯作者：Zihao Guo ⟨[email protected]⟩, Yali Du ⟨[email protected]⟩。  

###### 摘要  
多智能体系统广泛应用于需要严格安全约束下协调行为的安全关键任务。现有方法面临一个基本权衡：基于学习的方法实现了强大的经验性能，但缺乏理论安全保证；而控制理论方法强制安全，但常常导致过于保守和低效的行为。我们提出一个分层多智能体强化学习框架，该框架在低层通过约束流形在温和假设下强制执行硬安全约束，同时在高层通过策略学习实现有效协调。我们的方法为多智能体设置提供了理论安全保证，并产生平稳的学习动态，从而实现稳定且高效的训练。实验上，我们的方法在保持几乎完美安全率的同时实现了有竞争力的性能，并能有效泛化到不同数量的智能体和障碍物。  

## 1 引言  
多智能体系统在现实应用中取得了显著发展，例如仓库机器人[Kattepur et al., 2018](https://arxiv.org/html/2606.24010#bib.bib9)、自动驾驶车辆[Zhang et al., 2024](https://arxiv.org/html/2606.24010#bib.bib10)、交通路由[Wu et al., 2020](https://arxiv.org/html/2606.24010#bib.bib11)以及无人机集群协调[Batra et al., 2022](https://arxiv.org/html/2606.24010#bib.bib60)。这些场景的一个共同特征是，每个智能体不仅需要完成自身任务，还必须与其他智能体高效协作，同时保持安全性（例如避免碰撞）。为了应对这些挑战，研究人员探索了多种方法，从基于拉格朗日量的约束马尔可夫决策过程（CMDP）[Gu et al., 2023](https://arxiv.org/html/2606.24010#bib.bib7); [Liu et al., 2021](https://arxiv.org/html/2606.24010#bib.bib25); [Ding et al., 2023](https://arxiv.org/html/2606.24010#bib.bib26); [Lu et al., 2021](https://arxiv.org/html/2606.24010#bib.bib27); [Geng et al., 2023](https://arxiv.org/html/2606.24010#bib.bib28); [Zhao et al., 2023](https://arxiv.org/html/2606.24010#bib.bib13)（对不安全行为进行惩罚），到安全过滤器方法，如控制障碍函数（CBF）[Zhang et al., 2025b](https://arxiv.org/html/2606.24010#bib.bib2), [2025a](https://arxiv.org/html/2606.24010#bib.bib3)，以及传统控制理论方法如模型预测控制（MPC）[Goarin et al., 2025](https://arxiv.org/html/2606.24010#bib.bib1)。最近基于学习的多智能体CBF方法[Zhang et al., 2025b](https://arxiv.org/html/2606.24010#bib.bib2), [2025a](https://arxiv.org/html/2606.24010#bib.bib3)通过将学习与隐式规划能力相结合，展示了强大的经验性能。这使得在安全关键任务（如多智能体导航和碰撞避免）中能够实现更有效且可扩展的协作策略。与具有固定解析控制器的传统基于模型的CBF方法相比，这些方法进一步提高了适应性和性能。然而，类似于基于CMDP的方法，这些方法依赖于学习到的策略，因此通常缺乏形式化的安全保证。  
除了基于学习的方法，控制理论方法[Goarin et al., 2025](https://arxiv.org/html/2606.24010#bib.bib1)也被提出用于在硬约束下保证多智能体系统的安全性。然而，在具有多个障碍物的复杂多智能体系统中，它们常常导致智能体之间协调不良以及次优路径选择，从而可能引发死锁。为了克服这一挑战，安全分层多智能体强化学习方法[Ahmad et al., 2025](https://arxiv.org/html/2606.24010#bib.bib12)将控制分解为一个高层策略（学习选择或切换技能）和一个低层控制器（通过参数化的CBF-二次规划（QP）控制器执行每个技能）。在该框架中，CBF参数是学习的，但安全约束保持基于模型的解析形式。每一步都需要求解QP问题，这引入了显著的计算开销，导致训练效率降低和性能次优。  
在单智能体设置中，约束流形方法[Liu et al., 2025](https://arxiv.org/html/2606.24010#bib.bib8)通过安全动作空间确保安全性，同时避免了QP求解，从而实现了高效的每步计算。然而，尚不清楚该方法能否扩展到多智能体设置。现有方法无法同时实现强大的任务性能、理论安全保证和训练效率。  
为了弥补这些差距，我们提出一种新颖的框架——分层流形多智能体PPO（HMM），它将协作与安全性解耦为两个层次：高层为可学习的策略用于协调，低层为基于模型的控制器用于强制执行硬约束。高层策略采用集中训练分散执行（CTDE）方式，顺序地为每个智能体生成子目标，处理多智能体协调和路径规划。在低层，控制器通过将硬约束嵌入可微分的约束流形并将动作限制在其切空间内来保证安全性。与需要每一步求解QP的基于CBF的方法相比，我们的HMM仅涉及高效的切空间投影，同时在温和假设下为每个环境时间步提供约束满足的结构化保证。  
我们的主要贡献总结如下：  
- • 我们提出HMM，一种基于约束流形公式的分层多智能体强化学习框架，能够实现协调的多智能体控制，同时在训练和执行期间每个时间步都提供形式化的安全保证。  
- • 我们的方法为多智能体设置提供了理论安全保证，并引出一个具有稳定收敛行为的平稳学习过程。  
- • 实验上，HMM在Lidar基准测试上优于其他安全多智能体强化学习基线，实现了最先进的性能。它还在任务规模上表现出强大的泛化能力：仅使用3个智能体和3个障碍物训练的策略，能够有效泛化到多达21个智能体或障碍物的场景，同时保持几乎完美的安全率和较高的任务成功率。  

## 2 相关工作  
我们的方法处于安全强化学习与多智能体强化学习、分层多智能体强化学习以及基于约束流形的安全控制的交叉领域。我们综述了这些领域，并指出没有现有方法能够同时提供硬安全保证、避免每步QP求解并扩展到多智能体分层设置。这一差距是推动我们工作的动因。  
**安全强化学习与多智能体强化学习。** 在安全强化学习中，CMDP是一个经典框架[Zhao et al., 2023](https://arxiv.org/html/2606.24010#bib.bib13); [Altman, 2021](https://arxiv.org/html/2606.24010#bib.bib14); [Gu et al., 2023](https://arxiv.org/html/2606.24010#bib.bib7)，用于在满足安全约束的同时最大化累积奖励。现有方法大致可分为原始方法[Xu et al., 2021](https://arxiv.org/html/2606.24010#bib.bib15); [Chow et al., 2018](https://arxiv.org/html/2606.24010#bib.bib16), [2019](https://arxiv.org/html/2606.24010#bib.bib17); [Liu et al., 2020](https://arxiv.org/html/2606.24010#bib.bib18)（直接强制执行约束）、原始-对偶方法[He et al., 2023](https://arxiv.org/html/2606.24010#bib.bib21); [Borkar, 2005](https://arxiv.org/html/2606.24010#bib.bib19); [Ding et al., 2020](https://arxiv.org/html/2606.24010#bib.bib23); [Huang et al., 2023](https://arxiv.org/html/2606.24010#bib.bib22); [Tessler et al., 2018](https://arxiv.org/html/2606.24010#bib.bib20)（引入拉格朗日乘子）以及基于信任域的方法[Achiam et al., 2017](https://arxiv.org/html/2606.24010#bib.bib24); [He et al., 2023](https://arxiv.org/html/2606.24010#bib.bib21)。其中，基于拉格朗日乘子的方法[Gu et al., 2023](https://arxiv.org/html/2606.24010#bib.bib7); [Liu et al., 2021](https://arxiv.org/html/2606.24010#bib.bib25); [Ding et al., 2023](https://arxiv.org/html/2606.24010#bib.bib26); [Lu et al., 2021](https://arxiv.org/html/2606.24010#bib.bib27); [Geng et al., 2023](https://arxiv.org/html/2606.24010#bib.bib28); [Zhao et al., 2023](https://arxiv.org/html/2606.24010#bib.bib13)特别流行，并已扩展到多智能体设置。然而，这些基于拉格朗日的方法（无论是单智能体还是多智能体设置）都面临训练不稳定、收敛缓慢以及对超参数敏感等问题[Zanon and Gros, 2020](https://arxiv.org/html/2606.24010#bib.bib29); [He et al., 2023](https://arxiv.org/html/2606.24010#bib.bib21); [So and Fan, 2023](https://arxiv.org/html/2606.24010#bib.bib30); [Ganai et al., 2023](https://arxiv.org/html/2606.24010#bib.bib31)。最近，CBF作为安全过滤器被集成到强化学习训练过程中[Tearle et al., 2021](https://arxiv.org/html/2606.24010#bib.bib32); [Hsu et al., 2023](https://arxiv.org/html/2606.24010#bib.bib33); [Hailemichael et al., 2023](https://arxiv.org/html/2606.24010#bib.bib34)。该方法在单智能体[Cheng et al., 2019](https://arxiv.org/html/2606.24010#bib.bib35); [Emam et al., 2022](https://arxiv.org/html/2606.24010#bib.bib36); [Hailemichael et al., 2023](https://arxiv.org/html/2606.24010#bib.bib34)和多智能体设置[Pereira et al., 2021](https://arxiv.org/html/2606.24010#bib.bib37), [2022](https://arxiv.org/html/2606.24010#bib.bib38); [Zhang et al., 2025a](https://arxiv.org/html/2606.24010#bib.bib3)中都得到了探索。然而，现有基于CBF的方法要么需要在每个时间步求解QP，导致计算成本高，要么依赖于学习参数化的CBF，无法提供理论安全保证。  
**分层多智能体强化学习。** 分层强化学习（HRL）[Pertsch et al., 2021](https://arxiv.org/html/2606.24010#bib.bib39)通过将决策分解为多个时间抽象层次来解决复杂的长时域任务。HRL在单智能体[Parr and Russell, 1997](https://arxiv.org/html/2606.24010#bib.bib40); [Dietterich, 2000](https://arxiv.org/html/2606.24010#bib.bib41); [Sutton et al., 1999](https://arxiv.org/html/2606.24010#bib.bib42)和多智能体设置[Xu et al., 2023](https://arxiv.org/html/2606.24010#bib.bib43); [Ghavamzadeh et al., 2006](https://arxiv.org/html/2606.24010#bib.bib44); [Son et al., 2019](https://arxiv.org/html/2606.24010#bib.bib45); [Dietterich, 2000](https://arxiv.org/html/2606.24010#bib.bib41); [Ahilan and Dayan, 2019](https://arxiv.org/html/2606.24010#bib.bib46); [Tessler et al., 2017](https://arxiv.org/html/2606.24010#bib.bib47)中都得到了广泛研究。然而，这些分层框架通常缺乏明确的安全保证。为了解决这一问题，HMARL-CBF[Ahmad et al., 2025](https://arxiv.org/html/2606.24010#bib.bib12)使用基于CBF的低层控制器来保证安全性。但它需要在每个时间步求解QP，导致效率低下，并且在相同基准测试上的性能不如DGPPO[Zhang et al., 2025a](https://arxiv.org/html/2606.24010#bib.bib3)，如Ahmad等人（2025）所报告的。  
**基于约束流形的安全控制。** 基于约束流形的方法[Liu et al., 2022](https://arxiv.org/html/2606.24010#bib.bib48), [2025](https://arxiv.org/html/2606.24010#bib.bib8)提供了一种无需在强化学习中求解QP求解器的安全强制执行替代方法。该方法已扩展到动态高维机器人任务[Liu et al., 2023](https://arxiv.org/html/2606.24010#bib.bib49)、随机约束流形[Gu et al., 2024](https://arxiv.org/html/2606.24010#bib.bib50)以及未知约束下的长期安全[Günster et al., 2024](https://arxiv.org/html/2606.24010#bib.bib51)。然而，现有工作主要关注单智能体设置。在这项工作中，我们将约束流形扩展到分层框架内的多智能体设置。这使得在复杂多智能体环境中能够实现高效且可扩展的安全强制执行，同时保留形式化保证。  

## 3 预备知识与问题建模  

### 3.1 约束半马尔可夫决策过程  
我们将多智能体安全控制问题建模为约束半马尔可夫决策过程（CSMDP）[Makar et al., 2001](https://arxiv.org/html/2606.24010#bib.bib58)，该方法允许时间扩展的动作。在我们的设置中，我们考虑每个动作执行固定时长 \(\tau\) 的特殊情况。CSMDP由元组 \(\langle \mathcal{N},\mathcal{S},\mathcal{Z},\mathcal{O},\mathcal{P},r,\mathcal{H},\gamma \rangle\) 定义，其中 \(\mathcal{N}=\{1,\ldots,N\}\) 表示智能体集合。全局状态空间记为 \(\mathcal{S}\)。时间步 \(t\) 的全局状态为 \(\mathbf{s}^t=\{\mathbf{s}_i^t\}_{i\in\mathcal{N}}\)，其中 \(\mathbf{s}_i^t\in\mathbb{R}^S\) 表示智能体 \(i\) 的状态。全局状态不被各个智能体直接观测；相反，每个智能体 \(i\) 接收一个局部观测 \(o_i^t\in\mathcal{O}_i\)。联合动作空间和观测空间分别为 \(\mathcal{Z}=\mathcal{Z}_1\times\cdots\times\mathcal{Z}_N\) 和 \(\mathcal{O}=\mathcal{O}_1\times\cdots\times\mathcal{O}_N\)。每个智能体 \(i\in\mathcal{N}\) 有 \(L\) 个定义在局部观测上的约束函数，联合集记为 \(\mathcal{H}:=\{h_i^{(\ell)}:\mathcal{O}_i\rightarrow\mathbb{R}\mid i\in\mathcal{N},\,\ell=1,\ldots,L\}\)。我们要求在每一个时间步 \(t\) 严格满足约束：  
\[
h_i^{(\ell)}(o_i^t)\leq 0,\quad\forall i\in\mathcal{N},\ \ell=1,\ldots,L,\ \forall t\geq 0. \tag{1}
\]  
多步转移核 \(\mathcal{P}:\mathcal{S}\times\mathcal{Z}\rightarrow\Delta(\mathcal{S})\)，其中 \(\mathcal{P}(\mathbf{s}'\mid\mathbf{s},\mathbf{z})\) 表示在联合动作 \(\mathbf{z}\) 下经过 \(\tau\) 个时间步转移到 \(\mathbf{s}'\) 的概率。奖励函数 \(r:\mathcal{S}\times\mathcal{Z}\rightarrow\mathbb{R}\) 表示由联合动作引起的 \(\tau\) 个时间步累积奖励。我们区分时间步和决策阶段：系统以更细的时间步索引 \(t\) 演化，而决策在离散的决策阶段（索引为 \(k\)）做出。每个决策阶段 \(k\) 对应执行一个联合动作 \(\mathbf{z}^k\)，该动作在连续的 \(\tau\) 个时间步内保持不变，即从 \(t=k\tau\) 到 \(t=(k+1)\tau-1\)。我们用 \(\mathbf{s}^k:=\mathbf{s}^{k\tau}\) 表示阶段 \(k\) 开始时的状态。目标是找到定义在决策阶段上的分散策略 \(\pi_i:\mathcal{O}_i\rightarrow\mathcal{Z}_i\)，在满足安全约束的同时最大化期望折扣回报：  
\[
\max_{\pi_1,\ldots,\pi_N}\mathbb{E}_\pi\left[\sum_{k=0}^{\infty}\gamma^{k\tau} r(\mathbf{s}^k,\mathbf{z}^k)\right] \quad \text{s.t.}\quad h_i^{(\ell)}(o_i^t)\leq 0,\ \forall i\in\mathcal{N},\ \ell=1,\ldots,L,\ \forall t\geq 0.
\]

基于约束流形控制的安全且可泛化的分层多智能体强化学习

相似文章

基于合约的组合式防护用于安全多智能体强化学习

可扩展的约束多智能体强化学习：通过状态增强与一致性实现可分离动力学

TRIDENT：打破混合安全-物理耦合的可证明安全多智能体强化学习框架

从累积约束到自适应运行时安全控制用于非平稳强化学习

多智能体RL何时能提升LLM工作流？工作流、规模与策略共享的权衡

提交意见反馈