面向安全强化学习的鲁棒防护
摘要
提出了一种新颖的防护框架,用于鲁棒马尔可夫决策过程(RMDP),该框架在不确定的转移动态下正式保证安全性,并证明了其正确性和最优性。该方法结合了学习模型的PAC保证,使得在未知环境中实现安全强化学习成为可能。
arXiv:2606.00270v1 公告类型: 新
摘要:防护是一种有效的方法,可以在马尔可夫决策过程(MDP)中形式化地保证强化学习代理的安全性。然而,现有的防护技术通常假设已知与安全相关的转移动态——这一要求在现实中很少得到满足。为解决这一限制,我们提出了一种针对鲁棒MDP(RMDP)的新颖防护框架,即含有转移概率集合的MDP。我们将安全性定义为:在RMDP的最坏情况转移概率下,以一定的阈值概率满足线性时序逻辑(LTL)公式。我们证明了我们的防护框架对于RMDP既是正确且最优的:防护所允许的每个策略都是安全的,反之,每个安全的RMDP策略都被防护所允许。我们将该方法与现有的采样方法相结合,用于学习具有也许近似正确(PAC)保证的MDP转移概率。这种结合使得我们能够构建MDP的防护,这些防护以高置信度保证安全性,同时保持最小限制性。我们的实验表明,针对学习到的RMDP的防护能够在未知MDP中保证安全性,同时随着样本数量的增加恢复出强期望回报。
查看缓存全文
缓存时间: 2026/06/02 15:45
# 鲁棒屏蔽技术保障强化学习安全 来源:https://arxiv.org/abs/2606.00270 查看 PDF(https://arxiv.org/pdf/2606.00270) > 摘要:屏蔽是一种在马尔可夫决策过程(MDP)中形式化保证强化学习智能体安全性的有效方法。然而,现有的屏蔽技术通常假设已知与安全相关的转移动力学——这一要求在现实中很少得到满足。为解决这一局限,我们提出了一种针对鲁棒MDP(RMDP)的新型屏蔽框架,即转移概率为集合的MDP。我们将安全性定义为:在RMDP的最坏情况转移概率下,线性时序逻辑(LTL)公式以某一阈值概率得到满足。我们证明了所提出的屏蔽框架对于RMDP既是完备的也是最优的:每个被屏蔽器允许的策略都是安全的,反之,每个安全的RMDP策略都被屏蔽器允许。我们将该方法与现有采样方法相结合,以学习带有概率近似正确(PAC)保证的MDP转移概率。这种结合使得我们能够构建这样的屏蔽器:它们在高置信度下保证安全性,同时保持最小限制性。实验表明,针对学习到的RMDP,我们的屏蔽器能够在未知MDP中保证安全性,同时随着样本数量增加恢复较强的期望回报。 ## 提交历史 来自:Thom Badings \[查看邮箱(https://arxiv.org/show-email/e8088f5e/2606.00270)\] **\[v1\]** 2026年5月29日 星期五 19:01:12 UTC(246 KB)
相似文章
基于合约的组合式防护用于安全多智能体强化学习
一种基于合约的组合式防护方法,无需集中式运行时控制即可确保多智能体强化学习中的全局安全性,利用局部LTL义务和多臂老虎机优化团队奖励。
通过分位数贝叶斯风险MDP实现在线强化学习中鲁棒性与探索的动态权衡
本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架,该框架能够随时间自适应地平衡鲁棒性与探索,提供了理论遗憾界并展示了强大的实证性能。
最大熵如何使强化学习更加稳健
本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。
什么是 MDP?我们该如何求解?
本文通过一个关于大学生日常决策的教学示例,解释了马尔可夫决策过程(MDP)的基础知识,这是深度强化学习中的核心框架。
策略感知模拟器学习的理论基础与高效算法
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。