TRIDENT:打破混合安全-物理耦合的可证明安全多智能体强化学习框架

arXiv cs.LG 论文

摘要

TRIDENT是一种新颖的多智能体强化学习框架,打破了混合离散-连续动作、硬安全约束和物理支配动力学之间的耦合,实现了可证明安全的协调,保证了收敛到约束纳什均衡,并显著减少了训练期间的违规行为。

arXiv:2606.18308v1 公告类型:新 摘要:在网络化信息物理系统中实现安全协调,要求学习算法同时处理混合离散-连续动作、训练期间的硬安全约束以及物理支配的动力学。我们证明了这三个特征形成了一个偏置有向环,击败了任何简单的现成模块组合,并将其形式化为一个三向耦合引理。随后,我们引入了TRIDENT,这是第一个MARL框架,其三个组件被共同设计以消除各自的泄漏:Richardson-Romberg梯度修正,将Gumbel-Softmax偏置从O(τ)降至O(τ^2);Lyapunov约束的序列信任区域更新,强制每步迭代可行性;以及物理信息的残差评论家,分解价值而非奖励。我们证明了向约束纳什均衡的O~(1/√K)收敛率和O(√K)累积违规界限。在多无人机移动边缘计算、自主交叉口管理以及混合SMAC变体上,TRIDENT相比MADDPG减少了95.5%的训练期违规,相比MACPO减少了76.3%,同时在奖励上比最强的无约束基线提升了13.5%。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:40

# 打破混合-安全-物理耦合以实现可证明安全的多智能体强化学习
来源:https://arxiv.org/html/2606.18308
Zijie Meng, Ziwei Li, Zhiyu Li, Jiyuan Liu
北京大学
Yufei Liu¹¹footnotemark:1
厦门大学
&Wenhua Nie
台湾大学
&Bingcai Wei
武汉大学
&Miao Zhang
清华大学 / 集美大学

###### 摘要
网络化信息物理系统中的安全协同迫使学习算法同时处理*混合离散-连续动作*、*硬训练时安全约束*以及*物理主导的动态*。我们证明这三个特征形成了一个有偏见的定向循环,使得任何简单组合现成模块的方法都失效,并将其形式化为一个*三路耦合引理*。随后,我们引入Trident,这是第一个MARL框架,其三个组件经过协同设计以相互抵消泄漏:一个将Gumbel-Softmax偏差从O\(τ\)降低到O\(τ²\)的Richardson-Romberg梯度校正、一个强制执行每次迭代可行性的Lyapunov约束序贯信赖域更新,以及一个分解价值而非奖励的物理信息*残差评论家*。我们证明了以Õ\(1/√K\)的速率收敛到约束纳什均衡,以及O\(√K\)的累积违反界。在多无人机移动边缘计算、自主交叉口管理以及一个混合SMAC变体上,Trident相比于MADDPG减少了95.5%的训练时违规,相比于MACPO减少了76.3%,同时相比于最强的无约束基线提升了13.5%的奖励。

Trident: 打破混合-安全-物理耦合以实现可证明安全的多智能体强化学习
Zijie Meng††thanks:Equal contribution.††thanks:Corresponding author:[email protected], Ziwei Li, Zhiyu Li, Jiyuan Liu
北京大学
Yufei Liu¹¹footnotemark:1
厦门大学
Wenhua Nie
台湾大学
Bingcai Wei
武汉大学
Miao Zhang
清华大学 / 集美大学

## 1 引言
考虑一支部署在灾区的无人机机队,为地面第一响应人员提供移动边缘计算服务(Wang and others,2021 (https://arxiv.org/html/2606.18308#bib.bib36); Zhou and others,2023 (https://arxiv.org/html/2606.18308#bib.bib41))。在几十毫秒内,每架无人机必须选择哪个异构骨干服务器将中继救援人员的视频流(在一小组链路上的离散选择),决定将多少即将进行的计算任务进行卸载(\[0,1\]内的连续分数),并更新其轨迹,同时严格保持电池、覆盖范围以及无人机间距离在硬件限制之内。与推荐系统或国际象棋引擎不同,后者可以容忍先后悔再改进的曲线,训练期间发生的每一个不安全动作都会带来物理上不可逆转的后果——电池耗尽、空中近距离冲突、紧急视频流中断(García and Fernández,2015 (https://arxiv.org/html/2606.18308#bib.bib12); Brunke et al.,2022 (https://arxiv.org/html/2606.18308#bib.bib7))。

这种场景并不罕见;它是*网络化信息物理系统*(CPS)中安全协同的典型模式,同样存在于自主交叉口车辆、机器人仓库和网联车队列中(Zhou et al.,2021 (https://arxiv.org/html/2606.18308#bib.bib40); Meng et al.,2026 (https://arxiv.org/html/2606.18308#bib.bib47); Liu et al.,2025 (https://arxiv.org/html/2606.18308#bib.bib48); Wei et al.,2025 (https://arxiv.org/html/2606.18308#bib.bib49))。仔细审视此类系统会发现,三个结构特征总是同时出现,而非孤立存在。第一个是混合动作结构(F1):决策分解为a=(a^d, a^c),其中a^d命名一个模式(哪个服务器、哪个车道、哪个目标),a^c参数化其执行(卸载比例、油门、瞄准点);对a^c进行离散化会破坏分辨率,而对a^d进行松弛则会在物理不兼容的模式之间产生不可行的插值(Fu et al.,2019 (https://arxiv.org/html/2606.18308#bib.bib11); Fan et al.,2019 (https://arxiv.org/html/2606.18308#bib.bib10))。第二个是硬训练时安全性(F2):成本阈值不仅要在收敛时被满足,而且要在允许在硬件上执行的每一次迭代都被满足(Achiam et al.,2017 (https://arxiv.org/html/2606.18308#bib.bib1); Chow et al.,2018 (https://arxiv.org/html/2606.18308#bib.bib8); Gu and others,2021 (https://arxiv.org/html/2606.18308#bib.bib14); Li and Azizan,2024 (https://arxiv.org/html/2606.18308#bib.bib15))。第三个是物理主导的动态(F3):转移核和奖励的相当大一部分遵循封闭形式的物理定律——香农容量、弗里斯路径损耗、牛顿方程——从头重新发现它们会浪费数量级的样本(Karniadakis et al.,2021 (https://arxiv.org/html/2606.18308#bib.bib19); Banerjee et al.,2023 (https://arxiv.org/html/2606.18308#bib.bib6); Cao et al.,2024 (https://arxiv.org/html/2606.18308#bib.bib42); Meng,2026 (https://arxiv.org/html/2606.18308#bib.bib44); Meng et al.,2025 (https://arxiv.org/html/2606.18308#bib.bib45); Liu et al.,2026 (https://arxiv.org/html/2606.18308#bib.bib46))。

一个自然的初步反应是采用现成的混合动作MARL方法(Fu et al.,2019 (https://arxiv.org/html/2606.18308#bib.bib11)),将其包装在安全过程中,例如MACPO(Gu and others,2021 (https://arxiv.org/html/2606.18308#bib.bib14)),并添加一个物理塑造的奖励项。我们确实尝试了这种组合;结果是不稳定的,通常*比*每个单独组件更差。根本原因,我们在第4节 (https://arxiv.org/html/2606.18308#S4) 中精确阐述,是这三个特征形成了一个紧密的错误定向循环,而不是一系列独立问题(如图1 (https://arxiv.org/html/2606.18308#S4.F1) 所示)。标准的Gumbel-Softmax估计器带有O\(τ\)的梯度偏差(Jang et al.,2017 (https://arxiv.org/html/2606.18308#bib.bib17); Maddison et al.,2017 (https://arxiv.org/html/2606.18308#bib.bib24));将其代入拉格朗日或信赖域安全更新,该偏差会产生一个振荡而非减小Lyapunov函数的乘子,因此在精确梯度下成立的安全保证在偏差梯度下不再成立(F1→→F2)。一个对物理无感知的安全评论家必须回归跨离散分支高度多模态的成本价值函数——卸载到雾服务器1与2相比产生定性不同的能量曲线——在没有物理先验的情况下,它会在很少访问的分支上低估可行性边界,导致在错误分支上过度矫正的恢复行为(F2→→F3)。相反,将物理折叠成一个单一标量奖励塑造项的标准补救措施会改变软贝尔曼不动点并破坏离散子策略旨在利用的逐分支结构,因此离散头学会退化的单模态行为(F3→→F1)。这些依赖关系形成了一个定向循环:任何单独设计的模块都会将错误泄漏到下一个模块,而下一个模块又将错误泄漏回来。因此,分别处理这三个挑战不仅是次优的——而且是可证明的循环。

我们认为正确的抽象层次既不是“为MARL添加安全性”,也不是“为安全RL添加物理”,而是一个联合对象:一个受约束的混合动作策略,其梯度由物理塑造,其更新由Lyapunov约束塑造。上述三路耦合给出了三个具体的设计原则,每个都实例化为Trident(温度校正、残差、无穷小可行、解耦、序贯框架)的一个组件。由于组件是协同设计的,一个组件的残差误差不再进入其他组件的保证,并且单一的收敛性和安全性分析闭环。具体而言,我们的贡献有四个方面:
- • 一个耦合引理形式化说明了为什么混合动作、硬安全性和物理先验不能简单组合,并唯一确定了任何正确修复的架构。
- • Trident,第一个MARL框架,协同设计混合动作、安全和物理模块,使得它们的残差误差不再相互影响保证。
- • 联合保证:以Õ\(1/√K\)收敛到约束纳什均衡,O\(√K\)累积违反,以及物理驱动的样本复杂度降低。
- • 在无人机移动边缘计算、自主交叉口管理和混合SMAC变体上的强实证结果:比MADDPG减少95.5%违规,比MACPO减少76.3%,奖励提升13.5%,可扩展到32个智能体。

## 2 相关工作
**混合动作MARL。** Deep MAPQN或MAHHQN(Fu et al.,2019 (https://arxiv.org/html/2606.18308#bib.bib11))开创了离散-连续空间的DRL,后续工作改进了参数化动作分解(Skrynnik et al.,2021 (https://arxiv.org/html/2606.18308#bib.bib37); Fan et al.,2019 (https://arxiv.org/html/2606.18308#bib.bib10))。没有提供收敛率或安全保证,并且都依赖于标准的Gumbel-Softmax估计器(Jang et al.,2017 (https://arxiv.org/html/2606.18308#bib.bib17); Maddison et al.,2017 (https://arxiv.org/html/2606.18308#bib.bib24)),其O\(τ\)梯度偏差正是我们确定的F1→→F2泄漏的根源。

**安全MARL。** MACPO(Gu and others,2021 (https://arxiv.org/html/2606.18308#bib.bib14))将CPO(Achiam et al.,2017 (https://arxiv.org/html/2606.18308#bib.bib1))扩展到多智能体信赖域更新并具有单调改进保证;基于Safety Gym的MAPPO-Lagrangian(Ray et al.,2019 (https://arxiv.org/html/2606.18308#bib.bib29); Yu et al.,2022 (https://arxiv.org/html/2606.18308#bib.bib38))仅保证*收敛时*的可行性;最新的MADAC(Li and Azizan,2024 (https://arxiv.org/html/2606.18308#bib.bib15))建立了广义纳什收敛,但继承了F1违反的无偏梯度假设;而屏蔽方法(Elsayed-Aly and others,2021 (https://arxiv.org/html/2606.18308#bib.bib9); Alshiekh et al.,2018 (https://arxiv.org/html/2606.18308#bib.bib4))仅通过手工设计的屏蔽保证学习时安全性,并且不能适应混合动作。Chow等人 (2018 (https://arxiv.org/html/2606.18308#bib.bib8)) 及其扩展 (Huh and Yang,2020 (https://arxiv.org/html/2606.18308#bib.bib16)) 基于Lyapunov的方法是我们安全机制最接近的先例,但仅限于单智能体、连续动作问题,并假设无偏策略梯度。

**物理信息和残差RL。** 残差策略学习(Silver et al.,2018 (https://arxiv.org/html/2606.18308#bib.bib33); Johannink et al.,2019 (https://arxiv.org/html/2606.18308#bib.bib18))组合了基于模型的先验与学习校正;物理调节的DRL(Cao et al.,2024 (https://arxiv.org/html/2606.18308#bib.bib42))和物理信息MBRL(Ramesh and Ravindran,2023 (https://arxiv.org/html/2606.18308#bib.bib28))利用已知动态。然而,它们的奖励塑造变体遭受我们确定的F3→→F1泄漏,因为加性塑造改变了软贝尔曼不动点(Ng et al.,1999 (https://arxiv.org/html/2606.18308#bib.bib25))。我们将残差思想适应于集中式多智能体评论家,并首次量化了由此在约束MARL设置中的方差减少。

## 3 预备知识
我们将CPS协调建模为一个*约束多智能体MDP* (C-MAMDP)
M=\(N,S,\{Ai\}i,P,r,\{ck,dk\}k=1^K,γ\)
其中N个智能体,全局状态S,混合的每个智能体动作空间Ai=Aid×Aic(Aid={1,...,Mi}离散,Aic⊆R^pi连续),转移核P,共享奖励r,K个有界成本ck:S×A→[0,C_max]及其阈值dk,折扣γ∈(0,1)。每个智能体i持有局部策略πi:Oi→Δ(Ai)作用于观察oi;我们采用标准的集中式训练、分散式执行(CTDE)范式(Lowe et al.,2017 (https://arxiv.org/html/2606.18308#bib.bib23)),其中集中式评论家在训练时访问完整状态,而执行者仅在部署时依赖局部观察。给定联合策略π,价值和每个约束的成本价值函数分别为Vπ(s)=E_π[∑t γ^t r_t|s_0=s]和V_ck^π(s)=E_π[∑t γ^t c_k(s_t,a_t)|s_0=s]。目标是*约束纳什均衡*(CNE):
max_π E_{s_0~ρ} V^π(s_0) s.t. E_{s_0} V_ck^π(s_0) ≤ d_k 对所有k,
即一个联合策略,没有智能体能单方面改进其受约束的回报——这是近期安全MARL理论中使用的均衡概念(Gu and others,2021 (https://arxiv.org/html/2606.18308#bib.bib14); Li and Azizan,2024 (https://arxiv.org/html/2606.18308#bib.bib15))。对于混合动作,我们将π_i(a_i|o_i)分解为π_i^d(a_i^d|o_i) π_i^c(a_i^c|o_i,a_i^d),其中π_i^d为类别分布,π_i^c为以离散选择为条件的高斯分布。这种条件——而非联合或乘积——分解至关重要,因为连续参数在不同离散模式下含义不同:相同的标量“功率”在不同通信链路上带有不同的物理单位,因此单一的共享连续头会纠缠物理不兼容的模式。

## 4 三路耦合挑战
本节形式化第1节 (https://arxiv.org/html/2606.18308#S1) 的直觉:特征 (F1)–(F3) 通过任意简单组合中的执行者、安全评论家和奖励评论家诱导出一个定向的偏差循环。量化该循环(引理1 (https://arxiv.org/html/2606.18308#Thmtheorem1))直接决定了Trident的形式。

混合执行者 π^d·π^c (F1)
安全评论家 L_k (F2)
奖励评论家 Q_φ (F3)
F1→→F2: GS偏差 O\(τ\)
F2→→F3: 可行性估计错误
F3→→F1: 塑造压平模式
Stgc: O\(τ²\) Lcpo TR δ_TR=Õ\(1/√K\) Pirc: Q_phys 冻结

图1:三路耦合。红色波浪箭头:任意简单组合的偏差泄漏循环;绿色虚线箭头:Trident中三个协同设计的机制,每个消除一个泄漏(引理1 (https://arxiv.org/html/2606.18308#Thmtheorem1))。

设β_GS:=‖E[ĝ^d]−g^d‖为离散分支梯度偏差,ε_Q为奖励评论家MSE,η_s为安

相似文章

TeamTR:多智能体LLM协调的信任域微调

arXiv cs.LG

本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。