bellman-operator

标签

Cards List
#bellman-operator

面向多目标强化学习的确定性帕累托最优策略综合

arXiv cs.LG · 2天前 缓存

本文引入了一种基于切比雪夫标量化的新颖偏好条件贝尔曼算子,用于计算多目标马尔可夫决策过程中的确定性帕累托最优策略,并证明了该算子的收敛性及其在捕获完整帕累托前沿方面的有效性。

0 人收藏 0 人点赞
#bellman-operator

用于分布强化学习的路径耦合贝尔曼流

arXiv cs.LG · 2026-05-12 缓存

本文介绍了路径耦合贝尔曼流(PCBF),这是一种连续时间的分布强化学习方法,它使用流匹配来建模回报分布,而无需启发式投影。它通过将当前回报流和后续回报流通过共享的基础噪声耦合在一起,解决了以往基于流的方法中存在的边界不匹配和高方差问题。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈