基于合约的组合式防护用于安全多智能体强化学习

arXiv cs.LG 2026/06/15 04:00 论文

摘要

一种基于合约的组合式防护方法，无需集中式运行时控制即可确保多智能体强化学习中的全局安全性，利用局部LTL义务和多臂老虎机优化团队奖励。

arXiv:2606.14130v1 公告类型：新摘要：在多智能体强化学习中，当任何智能体无法单方面强制执行全局安全时，就会出现安全协调问题：一个智能体动作的可接受性可能取决于其他智能体的动态。去中心化防护可以在运行时强制执行安全，但纯粹分解的权限往往排除了仅通过协调才能实现的团队最优安全行为。我们研究了在去中心化执行下训练和部署的智能体的确定性安全保证，无需集中式运行时控制即可恢复团队最优安全行为。智能体共享一个关于线性时序逻辑安全片段（$\mathsf{LTL}_{\mathsf{safe}}$）的全局规范 $\phi$，并从局部 $\mathsf{LTL}_{\mathsf{safe}}$ 义务的元组中选择，这些义务的合取蕴含全局规范 $\phi$。每个智能体可以依赖其他智能体的局部义务作为假设，因为整个合约元组是同时认证的，并且允许投影到局部动作掩码中。在学习时，一个非平稳的多臂老虎机从一个局部 $\mathsf{LTL}_{\mathsf{safe}}$ 义务库中选择元组以优化团队奖励，同时不放弃端到端的安全性。我们在6个环境和15种算法变体上评估了该方法。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:10

#### 摘要

当任何智能体都无法单方面强制执行全局安全时，安全协调问题就会出现在多智能体强化学习中：一个智能体动作的可接受性可能依赖于其他智能体的动态。去中心化屏蔽可以在运行时强制执行安全，但纯粹分解的权限通常会排除仅通过协调才能安全的团队最优行为。我们研究了在去中心化执行下训练和部署的智能体的确定性安全保证，在无集中式运行时控制的情况下恢复团队最优安全行为。智能体拥有线性时序逻辑安全片段（LTL_safe）中的共享全局规范φ，并在局部LTL_safe义务元组中进行选择，这些义务的合取蕴含全局规范φ。每个智能体可以依赖其他智能体的局部义务作为假设，因为整个契约元组同时得到认证，并允许投影到局部动作掩码中。在学习时，一个非平稳的多臂赌博机在局部LTL_safe义务库中进行选择，以选择优化团队奖励的元组，同时不放弃端到端的安全性。我们在6个环境和15种算法变体上评估了该方法。

## 1 引言

确保学习型协作智能体的安全性需要协调两个需求：智能体应优化共享任务目标，同时在训练和部署期间满足安全约束。在安全协调问题[elsayed2021safe, raja2009towards]中，一个智能体动作的可接受性依赖于共享环境中其他智能体的非平稳策略，因此将队友选择视为任意的推理必须丢弃仅在协调动作下才安全的行为。多智能体强化学习（MARL）通过利用基于采样的方法在随机博弈[littman1994markov]中迭代改进策略，为共享环境中不确定性下的序列决策提供了一个强大的框架。随机博弈通常在合作、竞争和混合战略动态下进行研究。许多多智能体系统自然涉及合作任务，例如救援无人机[drew2021multi]和自主仓库[wurman2008coordinating]，这使得合作设置成为安全MARL的自然目标。然而，标准奖励惩罚不足以验证一旦策略部署后行为是否安全[ji2023safety]。从形式化方法的角度来看，屏蔽[konighofer2017shield]是一种流行的技术，通过预先屏蔽可能导致规范违规的不安全动作或事后替换不安全动作[alshiekh2018safe]，在训练和部署期间强制执行安全性。

✓ 中心安全 × 中心不安全 ⋆ 本地拒绝的最优值 启用的安全动作 不安全 安全但未在此启用

基于合约的组合式防护用于安全多智能体强化学习

相似文章

面向安全强化学习的鲁棒防护

CHASE：基于强化学习的对抗性红蓝对抗提升大语言模型安全性

通过自适应安全约束实现非平稳环境下的安全持续强化学习

TeamTR：多智能体LLM协调的信任域微调

可扩展的约束多智能体强化学习：通过状态增强与一致性实现可分离动力学

提交意见反馈