长期决策问题中基于成对偏好的强化学习

arXiv cs.LG 2026/06/02 04:00 论文

摘要

本文介绍了Markov decision contest，这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性，并提出了一种高效学习的近似算法。

arXiv:2606.00367v1 公告类型：新发布摘要：强化学习问题通常将目标定义为最大化标量奖励函数的期望值。但是，成对偏好通常比标量奖励更容易指定，并且它们可以表达标量奖励无法表达的某些目标。因此，用于基于成对偏好的强化学习方法越来越受到关注。不幸的是，这些方法在长时间跨度的问题中效率低下，并且它们缺乏关于马尔可夫策略相对于历史依赖策略性能的保证，而这联系了强化学习的理论与实践。因此，我们提出了_Markov decision contest_，作为一种用于基于成对偏好的强化学习的新问题模型。我们证明了平稳马尔可夫策略在所有历史依赖策略中是最优的，精确求解Markov decision contest属于P类问题，并且一个简单的迭代算法以次线性速率收敛到最优策略。最后，在一组具有长时间跨度的高维决策问题中，我们展示了我们的近似算法在学习效率上显著优于先前的工作。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:42

# 面向长周期决策问题中成对偏好的强化学习
来源：https://arxiv.org/abs/2606.00367
查看PDF：https://arxiv.org/pdf/2606.00367

> 摘要：强化学习问题通常将目标定义为最大化标量奖励函数的期望值。然而，与标量奖励相比，成对偏好往往更容易指定，并且它们能表达标量奖励无法实现的某些目标。因此，结合成对偏好的强化学习方法日益受到关注。遗憾的是，这些方法在长时域问题中效率低下，且无法保证马尔可夫策略相对于历史依赖策略的性能——而这一保证正是衔接强化学习理论与实践的关键。为此，我们提出了**马尔可夫决策竞赛**作为强化学习与成对偏好相结合的新问题模型。我们证明了稳态马尔可夫策略在所有历史依赖策略中是最优的，且精确求解一个马尔可夫决策竞赛属于P类问题，同时一个简单的迭代算法以次线性速率收敛到最优策略。最后，在一组具有长时域的高维决策问题中，我们展示了近似算法在学习效率上显著优于先前工作。

## 提交历史

来自：Jonathan Colaço Carr [查看邮件](https://arxiv.org/show-email/56a9045a/2606.00367)  
**[v1]** 2026年5月29日 星期五 21:16:25 UTC (14,723 KB)

长期决策问题中基于成对偏好的强化学习

相似文章

从正确性到偏好：个性化智能体强化学习框架

多智能体协商中基于对手建模的偏好估计

主动学习作为高效的PRP重排序器

LambdaPO: 面向推理语言模型的Lambda风格策略优化

面向长程语言智能体可验证强化学习的策略条件化反事实信用

提交意见反馈