面向安全强化学习的鲁棒防护

arXiv cs.AI 2026/06/02 04:00 论文

摘要

提出了一种新颖的防护框架，用于鲁棒马尔可夫决策过程（RMDP），该框架在不确定的转移动态下正式保证安全性，并证明了其正确性和最优性。该方法结合了学习模型的PAC保证，使得在未知环境中实现安全强化学习成为可能。

arXiv:2606.00270v1 公告类型: 新摘要：防护是一种有效的方法，可以在马尔可夫决策过程（MDP）中形式化地保证强化学习代理的安全性。然而，现有的防护技术通常假设已知与安全相关的转移动态——这一要求在现实中很少得到满足。为解决这一限制，我们提出了一种针对鲁棒MDP（RMDP）的新颖防护框架，即含有转移概率集合的MDP。我们将安全性定义为：在RMDP的最坏情况转移概率下，以一定的阈值概率满足线性时序逻辑（LTL）公式。我们证明了我们的防护框架对于RMDP既是正确且最优的：防护所允许的每个策略都是安全的，反之，每个安全的RMDP策略都被防护所允许。我们将该方法与现有的采样方法相结合，用于学习具有也许近似正确（PAC）保证的MDP转移概率。这种结合使得我们能够构建MDP的防护，这些防护以高置信度保证安全性，同时保持最小限制性。我们的实验表明，针对学习到的RMDP的防护能够在未知MDP中保证安全性，同时随着样本数量的增加恢复出强期望回报。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:45

# 鲁棒屏蔽技术保障强化学习安全
来源：https://arxiv.org/abs/2606.00270
查看 PDF（https://arxiv.org/pdf/2606.00270）

> 摘要：屏蔽是一种在马尔可夫决策过程（MDP）中形式化保证强化学习智能体安全性的有效方法。然而，现有的屏蔽技术通常假设已知与安全相关的转移动力学——这一要求在现实中很少得到满足。为解决这一局限，我们提出了一种针对鲁棒MDP（RMDP）的新型屏蔽框架，即转移概率为集合的MDP。我们将安全性定义为：在RMDP的最坏情况转移概率下，线性时序逻辑（LTL）公式以某一阈值概率得到满足。我们证明了所提出的屏蔽框架对于RMDP既是完备的也是最优的：每个被屏蔽器允许的策略都是安全的，反之，每个安全的RMDP策略都被屏蔽器允许。我们将该方法与现有采样方法相结合，以学习带有概率近似正确（PAC）保证的MDP转移概率。这种结合使得我们能够构建这样的屏蔽器：它们在高置信度下保证安全性，同时保持最小限制性。实验表明，针对学习到的RMDP，我们的屏蔽器能够在未知MDP中保证安全性，同时随着样本数量增加恢复较强的期望回报。

## 提交历史

来自：Thom Badings \[查看邮箱（https://arxiv.org/show-email/e8088f5e/2606.00270）\] **\[v1\]** 2026年5月29日 星期五 19:01:12 UTC（246 KB）

面向安全强化学习的鲁棒防护

相似文章

基于合约的组合式防护用于安全多智能体强化学习

通过分位数贝叶斯风险MDP实现在线强化学习中鲁棒性与探索的动态权衡

最大熵如何使强化学习更加稳健

什么是 MDP？我们该如何求解？

策略感知模拟器学习的理论基础与高效算法

提交意见反馈