长期决策问题中基于成对偏好的强化学习
摘要
本文介绍了Markov decision contest,这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性,并提出了一种高效学习的近似算法。
arXiv:2606.00367v1 公告类型:新发布
摘要:强化学习问题通常将目标定义为最大化标量奖励函数的期望值。但是,成对偏好通常比标量奖励更容易指定,并且它们可以表达标量奖励无法表达的某些目标。因此,用于基于成对偏好的强化学习方法越来越受到关注。不幸的是,这些方法在长时间跨度的问题中效率低下,并且它们缺乏关于马尔可夫策略相对于历史依赖策略性能的保证,而这联系了强化学习的理论与实践。因此,我们提出了_Markov decision contest_,作为一种用于基于成对偏好的强化学习的新问题模型。我们证明了平稳马尔可夫策略在所有历史依赖策略中是最优的,精确求解Markov decision contest属于P类问题,并且一个简单的迭代算法以次线性速率收敛到最优策略。最后,在一组具有长时间跨度的高维决策问题中,我们展示了我们的近似算法在学习效率上显著优于先前的工作。
查看缓存全文
缓存时间: 2026/06/02 15:42
# 面向长周期决策问题中成对偏好的强化学习 来源:https://arxiv.org/abs/2606.00367 查看PDF:https://arxiv.org/pdf/2606.00367 > 摘要:强化学习问题通常将目标定义为最大化标量奖励函数的期望值。然而,与标量奖励相比,成对偏好往往更容易指定,并且它们能表达标量奖励无法实现的某些目标。因此,结合成对偏好的强化学习方法日益受到关注。遗憾的是,这些方法在长时域问题中效率低下,且无法保证马尔可夫策略相对于历史依赖策略的性能——而这一保证正是衔接强化学习理论与实践的关键。为此,我们提出了**马尔可夫决策竞赛**作为强化学习与成对偏好相结合的新问题模型。我们证明了稳态马尔可夫策略在所有历史依赖策略中是最优的,且精确求解一个马尔可夫决策竞赛属于P类问题,同时一个简单的迭代算法以次线性速率收敛到最优策略。最后,在一组具有长时域的高维决策问题中,我们展示了近似算法在学习效率上显著优于先前工作。 ## 提交历史 来自:Jonathan Colaço Carr [查看邮件](https://arxiv.org/show-email/56a9045a/2606.00367) **[v1]** 2026年5月29日 星期五 21:16:25 UTC (14,723 KB)
相似文章
从正确性到偏好:个性化智能体强化学习框架
本文提出了一个统一的个性化智能体强化学习框架,将通用任务奖励与个性化偏好奖励解耦,引入了PARPO和PSGM用于偏好对齐的策略优化和技能检索。
多智能体协商中基于对手建模的偏好估计
本文提出了一种新颖的偏好估计方法,将大型语言模型(LLM)的自然语言信息集成到结构化贝叶斯对手建模框架中,用于多智能体协商。该方法利用LLM从话语中提取定性线索,并将其转换为概率格式,在多方协商基准上展示了改进的协议达成率和偏好估计准确性。
主动学习作为高效的PRP重排序器
本文将有对排名提示(PRP)重新定义为从噪声比较中进行主动学习,引入了一个具有随机方向预测器的噪声鲁棒框架,以在调用约束下提高排名质量并解决位置偏差问题。
LambdaPO: 面向推理语言模型的Lambda风格策略优化
引入LambdaPO,一种新颖的强化学习框架,它通过将优势估计分解为成对偏好比较并添加语义密度奖励来改进GRPO,从而在数学推理任务上取得了更好的性能。
面向长程语言智能体可验证强化学习的策略条件化反事实信用
提出了CVT-RL,一种带有策略条件化反事实贡献估计和可验证奖励的约束策略梯度算法,提高了长程语言智能体的可靠性并减少了奖励篡改。