shielding

标签

Cards List
#shielding

基于合约的组合式防护用于安全多智能体强化学习

arXiv cs.LG · 18小时前 缓存

一种基于合约的组合式防护方法,无需集中式运行时控制即可确保多智能体强化学习中的全局安全性,利用局部LTL义务和多臂老虎机优化团队奖励。

0 人收藏 0 人点赞
#shielding

面向安全强化学习的鲁棒防护

arXiv cs.AI · 2026-06-02 缓存

提出了一种新颖的防护框架,用于鲁棒马尔可夫决策过程(RMDP),该框架在不确定的转移动态下正式保证安全性,并证明了其正确性和最优性。该方法结合了学习模型的PAC保证,使得在未知环境中实现安全强化学习成为可能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈