constrained-mdp

标签

Cards List
#constrained-mdp

效用约束策略优化

arXiv cs.LG · 3天前 缓存

本文介绍了一种简单而强大的方法,用于效用约束马尔可夫决策过程(UCMDPs),该方法无需预先固定约束界限即可实现风险敏感约束,在Safety Gymnasium基准测试中优于基线方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈