长期决策问题中基于成对偏好的强化学习

arXiv cs.LG 论文

摘要

本文介绍了Markov decision contest,这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性,并提出了一种高效学习的近似算法。

arXiv:2606.00367v1 公告类型:新发布 摘要:强化学习问题通常将目标定义为最大化标量奖励函数的期望值。但是,成对偏好通常比标量奖励更容易指定,并且它们可以表达标量奖励无法表达的某些目标。因此,用于基于成对偏好的强化学习方法越来越受到关注。不幸的是,这些方法在长时间跨度的问题中效率低下,并且它们缺乏关于马尔可夫策略相对于历史依赖策略性能的保证,而这联系了强化学习的理论与实践。因此,我们提出了_Markov decision contest_,作为一种用于基于成对偏好的强化学习的新问题模型。我们证明了平稳马尔可夫策略在所有历史依赖策略中是最优的,精确求解Markov decision contest属于P类问题,并且一个简单的迭代算法以次线性速率收敛到最优策略。最后,在一组具有长时间跨度的高维决策问题中,我们展示了我们的近似算法在学习效率上显著优于先前的工作。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:42

# 面向长周期决策问题中成对偏好的强化学习
来源:https://arxiv.org/abs/2606.00367
查看PDF:https://arxiv.org/pdf/2606.00367

> 摘要:强化学习问题通常将目标定义为最大化标量奖励函数的期望值。然而,与标量奖励相比,成对偏好往往更容易指定,并且它们能表达标量奖励无法实现的某些目标。因此,结合成对偏好的强化学习方法日益受到关注。遗憾的是,这些方法在长时域问题中效率低下,且无法保证马尔可夫策略相对于历史依赖策略的性能——而这一保证正是衔接强化学习理论与实践的关键。为此,我们提出了**马尔可夫决策竞赛**作为强化学习与成对偏好相结合的新问题模型。我们证明了稳态马尔可夫策略在所有历史依赖策略中是最优的,且精确求解一个马尔可夫决策竞赛属于P类问题,同时一个简单的迭代算法以次线性速率收敛到最优策略。最后,在一组具有长时域的高维决策问题中,我们展示了近似算法在学习效率上显著优于先前工作。

## 提交历史

来自:Jonathan Colaço Carr [查看邮件](https://arxiv.org/show-email/56a9045a/2606.00367)  
**[v1]** 2026年5月29日 星期五 21:16:25 UTC (14,723 KB)

相似文章

多智能体协商中基于对手建模的偏好估计

arXiv cs.CL

本文提出了一种新颖的偏好估计方法,将大型语言模型(LLM)的自然语言信息集成到结构化贝叶斯对手建模框架中,用于多智能体协商。该方法利用LLM从话语中提取定性线索,并将其转换为概率格式,在多方协商基准上展示了改进的协议达成率和偏好估计准确性。

主动学习作为高效的PRP重排序器

Hugging Face Daily Papers

本文将有对排名提示(PRP)重新定义为从噪声比较中进行主动学习,引入了一个具有随机方向预测器的噪声鲁棒框架,以在调用约束下提高排名质量并解决位置偏差问题。