pac-guarantees

#pac-guarantees

面向安全强化学习的鲁棒防护

arXiv cs.AI ↗ · 2026-06-02 缓存

提出了一种新颖的防护框架，用于鲁棒马尔可夫决策过程（RMDP），该框架在不确定的转移动态下正式保证安全性，并证明了其正确性和最优性。该方法结合了学习模型的PAC保证，使得在未知环境中实现安全强化学习成为可能。

0 人收藏 0 人点赞