基于合约的组合式防护用于安全多智能体强化学习

arXiv cs.LG 论文

摘要

一种基于合约的组合式防护方法,无需集中式运行时控制即可确保多智能体强化学习中的全局安全性,利用局部LTL义务和多臂老虎机优化团队奖励。

arXiv:2606.14130v1 公告类型:新 摘要:在多智能体强化学习中,当任何智能体无法单方面强制执行全局安全时,就会出现安全协调问题:一个智能体动作的可接受性可能取决于其他智能体的动态。去中心化防护可以在运行时强制执行安全,但纯粹分解的权限往往排除了仅通过协调才能实现的团队最优安全行为。我们研究了在去中心化执行下训练和部署的智能体的确定性安全保证,无需集中式运行时控制即可恢复团队最优安全行为。智能体共享一个关于线性时序逻辑安全片段($\mathsf{LTL}_{\mathsf{safe}}$)的全局规范 $\phi$,并从局部 $\mathsf{LTL}_{\mathsf{safe}}$ 义务的元组中选择,这些义务的合取蕴含全局规范 $\phi$。每个智能体可以依赖其他智能体的局部义务作为假设,因为整个合约元组是同时认证的,并且允许投影到局部动作掩码中。在学习时,一个非平稳的多臂老虎机从一个局部 $\mathsf{LTL}_{\mathsf{safe}}$ 义务库中选择元组以优化团队奖励,同时不放弃端到端的安全性。我们在6个环境和15种算法变体上评估了该方法。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:10

#### 摘要

当任何智能体都无法单方面强制执行全局安全时,安全协调问题就会出现在多智能体强化学习中:一个智能体动作的可接受性可能依赖于其他智能体的动态。去中心化屏蔽可以在运行时强制执行安全,但纯粹分解的权限通常会排除仅通过协调才能安全的团队最优行为。我们研究了在去中心化执行下训练和部署的智能体的确定性安全保证,在无集中式运行时控制的情况下恢复团队最优安全行为。智能体拥有线性时序逻辑安全片段(LTL_safe)中的共享全局规范φ,并在局部LTL_safe义务元组中进行选择,这些义务的合取蕴含全局规范φ。每个智能体可以依赖其他智能体的局部义务作为假设,因为整个契约元组同时得到认证,并允许投影到局部动作掩码中。在学习时,一个非平稳的多臂赌博机在局部LTL_safe义务库中进行选择,以选择优化团队奖励的元组,同时不放弃端到端的安全性。我们在6个环境和15种算法变体上评估了该方法。

## 1 引言

确保学习型协作智能体的安全性需要协调两个需求:智能体应优化共享任务目标,同时在训练和部署期间满足安全约束。在安全协调问题[elsayed2021safe, raja2009towards]中,一个智能体动作的可接受性依赖于共享环境中其他智能体的非平稳策略,因此将队友选择视为任意的推理必须丢弃仅在协调动作下才安全的行为。多智能体强化学习(MARL)通过利用基于采样的方法在随机博弈[littman1994markov]中迭代改进策略,为共享环境中不确定性下的序列决策提供了一个强大的框架。随机博弈通常在合作、竞争和混合战略动态下进行研究。许多多智能体系统自然涉及合作任务,例如救援无人机[drew2021multi]和自主仓库[wurman2008coordinating],这使得合作设置成为安全MARL的自然目标。然而,标准奖励惩罚不足以验证一旦策略部署后行为是否安全[ji2023safety]。从形式化方法的角度来看,屏蔽[konighofer2017shield]是一种流行的技术,通过预先屏蔽可能导致规范违规的不安全动作或事后替换不安全动作[alshiekh2018safe],在训练和部署期间强制执行安全性。

✓ 中心安全 × 中心不安全 ⋆ 本地拒绝的最优值 启用的安全动作 不安全 安全但未在此启用

相似文章

面向安全强化学习的鲁棒防护

arXiv cs.AI

提出了一种新颖的防护框架,用于鲁棒马尔可夫决策过程(RMDP),该框架在不确定的转移动态下正式保证安全性,并证明了其正确性和最优性。该方法结合了学习模型的PAC保证,使得在未知环境中实现安全强化学习成为可能。

通过自适应安全约束实现非平稳环境下的安全持续强化学习

arXiv cs.LG

提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。

TeamTR:多智能体LLM协调的信任域微调

arXiv cs.LG

本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。

可扩展的约束多智能体强化学习:通过状态增强与一致性实现可分离动力学

arXiv cs.LG

本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。