面向多目标强化学习的确定性帕累托最优策略综合

arXiv cs.LG 论文

摘要

本文引入了一种基于切比雪夫标量化的新颖偏好条件贝尔曼算子,用于计算多目标马尔可夫决策过程中的确定性帕累托最优策略,并证明了该算子的收敛性及其在捕获完整帕累托前沿方面的有效性。

arXiv:2606.26397v1 Announce Type: new 摘要:现实世界中的决策通常需要平衡多个相互冲突的目标,而标准强化学习(RL)通常通过将奖励聚合为单一标量信号来处理这一挑战。虽然这对简单任务有效,但这种方法往往无法捕捉最优权衡的全谱,即帕累托前沿。本文引入了一种新颖的偏好条件贝尔曼算子,其灵感来源于切比雪夫标量化,旨在计算多目标马尔可夫决策过程(MOMDP)中的确定性帕累托最优策略。我们证明该算子满足包络性质,即估计值函数上界于真实的帕累托前沿,并表明它能单调收敛到该前沿的一个覆盖集。此外,我们还展示了如何从这些收敛的Q估计中提取确定性策略。这确保了智能体能够为任意给定的偏好恢复一个策略,捕获整个帕累托最优前沿,同时保证每个合成的策略近似帕累托最优。实验结果验证了我们的算法成功恢复了复杂的权衡,为确定性帕累托最优策略综合提供了一种解决方案。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:18

# 确定性帕累托最优策略合成用于多目标强化学习
来源:https://arxiv.org/abs/2606.26397
查看PDF(https://arxiv.org/pdf/2606.26397)

> 摘要:现实世界中的决策常常需要平衡多个相互冲突的目标,而标准强化学习(RL)通常通过将奖励聚合为单一标量信号来处理这一挑战。虽然这种方法在简单任务中有效,但它往往无法捕捉最优权衡的完整集合,即帕累托前沿。在本文中,我们提出了一种新颖的偏好条件贝尔曼算子,其动机源于切比雪夫标量化,旨在为多目标马尔可夫决策过程(MOMDP)计算确定性帕累托最优策略。我们证明该算子满足一个包络性质,即估计的值函数对真实帕累托前沿给出上界,并证明它能单调收敛到该前沿的一个覆盖集。此外,我们还展示了如何从这些收敛的Q估计中提取确定性策略。这确保了智能体能够为任意给定的偏好恢复出一个策略,从而捕获整个帕累托最优前沿,同时保证每个合成的策略保持近似帕累托最优。实验结果验证了我们的算法能够成功恢复复杂的权衡,为确定性帕累托最优策略合成提供了一种解决方案。

## 提交历史

来自:Aniruddha Joshi [查看邮件(https://arxiv.org/show-email/6ea3df43/2606.26397)]  
**[v1]** 2026年6月24日星期三 21:28:49 UTC(109 KB)

相似文章

基于后验混合贝叶斯信念的正则化离线策略优化

arXiv cs.AI

本文介绍了后验混合贝叶斯信念(PhyB),这是一个将贝叶斯强化学习中的期望重新表述为动力学模型的凸组合的框架,从而能够实现具有有界目标差异和最新性能的高效正则化离线策略优化。

长期决策问题中基于成对偏好的强化学习

arXiv cs.LG

本文介绍了Markov decision contest,这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性,并提出了一种高效学习的近似算法。

通过预测梯度催化剂加速多目标贝叶斯优化

arXiv cs.LG

本文介绍了一种通用加速机制,用于多目标贝叶斯优化,该机制利用高斯过程预测梯度作为辅助信号来增强现有的采集函数,从而在有限的评估预算下更快地收敛到全局帕累托集。