bellman-operator

#bellman-operator

面向多目标强化学习的确定性帕累托最优策略综合

arXiv cs.LG ↗ · 2天前缓存

本文引入了一种基于切比雪夫标量化的新颖偏好条件贝尔曼算子，用于计算多目标马尔可夫决策过程中的确定性帕累托最优策略，并证明了该算子的收敛性及其在捕获完整帕累托前沿方面的有效性。

0 人收藏 0 人点赞

#bellman-operator

arXiv cs.LG ↗ · 2026-05-12 缓存

本文介绍了路径耦合贝尔曼流（PCBF），这是一种连续时间的分布强化学习方法，它使用流匹配来建模回报分布，而无需启发式投影。它通过将当前回报流和后续回报流通过共享的基础噪声耦合在一起，解决了以往基于流的方法中存在的边界不匹配和高方差问题。

0 人收藏 0 人点赞