safety-rl

#safety-rl

效用约束策略优化

arXiv cs.LG ↗ · 3天前缓存

本文介绍了一种简单而强大的方法，用于效用约束马尔可夫决策过程（UCMDPs），该方法无需预先固定约束界限即可实现风险敏感约束，在Safety Gymnasium基准测试中优于基线方法。

0 人收藏 0 人点赞