标签
本文引入了一种基于切比雪夫标量化的新颖偏好条件贝尔曼算子,用于计算多目标马尔可夫决策过程中的确定性帕累托最优策略,并证明了该算子的收敛性及其在捕获完整帕累托前沿方面的有效性。
本文介绍了路径耦合贝尔曼流(PCBF),这是一种连续时间的分布强化学习方法,它使用流匹配来建模回报分布,而无需启发式投影。它通过将当前回报流和后续回报流通过共享的基础噪声耦合在一起,解决了以往基于流的方法中存在的边界不匹配和高方差问题。