面向多目标强化学习的确定性帕累托最优策略综合

arXiv cs.LG 2026/06/26 04:00 论文

摘要

本文引入了一种基于切比雪夫标量化的新颖偏好条件贝尔曼算子，用于计算多目标马尔可夫决策过程中的确定性帕累托最优策略，并证明了该算子的收敛性及其在捕获完整帕累托前沿方面的有效性。

arXiv:2606.26397v1 Announce Type: new 摘要：现实世界中的决策通常需要平衡多个相互冲突的目标，而标准强化学习（RL）通常通过将奖励聚合为单一标量信号来处理这一挑战。虽然这对简单任务有效，但这种方法往往无法捕捉最优权衡的全谱，即帕累托前沿。本文引入了一种新颖的偏好条件贝尔曼算子，其灵感来源于切比雪夫标量化，旨在计算多目标马尔可夫决策过程（MOMDP）中的确定性帕累托最优策略。我们证明该算子满足包络性质，即估计值函数上界于真实的帕累托前沿，并表明它能单调收敛到该前沿的一个覆盖集。此外，我们还展示了如何从这些收敛的Q估计中提取确定性策略。这确保了智能体能够为任意给定的偏好恢复一个策略，捕获整个帕累托最优前沿，同时保证每个合成的策略近似帕累托最优。实验结果验证了我们的算法成功恢复了复杂的权衡，为确定性帕累托最优策略综合提供了一种解决方案。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:18

# 确定性帕累托最优策略合成用于多目标强化学习
来源：https://arxiv.org/abs/2606.26397
查看PDF（https://arxiv.org/pdf/2606.26397）

> 摘要：现实世界中的决策常常需要平衡多个相互冲突的目标，而标准强化学习（RL）通常通过将奖励聚合为单一标量信号来处理这一挑战。虽然这种方法在简单任务中有效，但它往往无法捕捉最优权衡的完整集合，即帕累托前沿。在本文中，我们提出了一种新颖的偏好条件贝尔曼算子，其动机源于切比雪夫标量化，旨在为多目标马尔可夫决策过程（MOMDP）计算确定性帕累托最优策略。我们证明该算子满足一个包络性质，即估计的值函数对真实帕累托前沿给出上界，并证明它能单调收敛到该前沿的一个覆盖集。此外，我们还展示了如何从这些收敛的Q估计中提取确定性策略。这确保了智能体能够为任意给定的偏好恢复出一个策略，从而捕获整个帕累托最优前沿，同时保证每个合成的策略保持近似帕累托最优。实验结果验证了我们的算法能够成功恢复复杂的权衡，为确定性帕累托最优策略合成提供了一种解决方案。

## 提交历史

来自：Aniruddha Joshi [查看邮件（https://arxiv.org/show-email/6ea3df43/2606.26397）]  
**[v1]** 2026年6月24日星期三 21:28:49 UTC（109 KB）

面向多目标强化学习的确定性帕累托最优策略综合

相似文章

从正确性到偏好：个性化智能体强化学习框架

基于后验混合贝叶斯信念的正则化离线策略优化

长期决策问题中基于成对偏好的强化学习

StepPO：面向智能体强化学习的步骤对齐策略优化

通过预测梯度催化剂加速多目标贝叶斯优化

提交意见反馈