列表式策略优化:基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影
摘要
本文介绍了列表式策略优化(LPO),这是一种用于 RLVR 的方法,通过在响应单纯形上进行散度最小化来显式处理目标投影,从而提高大语言模型(LLM)的训练稳定性和性能。
查看缓存全文
缓存时间: 2026/05/11 02:43
论文页面 - Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex
来源: https://huggingface.co/papers/2605.06139 发表于 5 月 7 日
·
由 https://huggingface.co/yunqu 提交
Yun Qu (https://huggingface.co/yunqu) 于 5 月 11 日
#1 每日论文 (https://huggingface.co/papers/date/2026-05-11) 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
强化学习中基于可验证奖励的组策略梯度方法共享一种共同的几何结构,这促使了列表策略优化(Listwise Policy Optimization)的发展,该方法通过最小化散度来进行显式的目标投影,从而提高了训练性能和稳定性。
带有可验证奖励的强化学习(Reinforcement learning with verifiable rewards, RLVR)已成为大型语言模型(LLMs)后训练的标准方法,旨在激励推理能力。在现有的方法中,组策略梯度(group-based policy gradient)应用广泛,它为每个提示采样一组回复,并通过组相对优势信号更新策略。这项工作揭示,这些优化策略共享一种共同的几何结构:每种方法都在回复单纯形(response simplex)上隐式定义了一个目标分布(target distribution),并通过一阶近似(first-order approximation)向该目标进行投影。基于这一洞察,我们提出了列表策略优化(Listwise Policy Optimization, LPO),以显式执行目标投影。LPO 通过将近端 RL 目标(proximal RL objective)限制在回复单纯形上,来揭示隐式目标的本质,然后通过精确的散度最小化(divergence minimization)对策略进行投影。该框架提供了:(i) 在列表目标上的单调改进(monotonic improvement),其投影梯度(projection gradients)具有有界性、零和性及自纠错特性;以及 (ii) 通过解耦的投影步骤,在散度选择上具有灵活性,具备不同的结构属性。在多样化的推理任务和 LLM 骨干模型上,LPO 在匹配的目标下,始终优于典型的策略梯度(policy gradient)基线模型的训练性能,同时内在保持了优化稳定性和回复多样性。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06139) 查看 PDF (https://arxiv.org/pdf/2605.06139) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06139)
在你的代理中获取此论文:
hf papers read 2605\.06139
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.06139 以在此页面链接它。
引用此论文的数据集 0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.06139 以在此页面链接它。
引用此论文的 Space 0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.06139 以在此页面链接它。
包含此论文的集合 0
无集合包含此论文
将此论文添加到集合 (https://huggingface.co/new-collection) 以在此页面链接它。
相似文章
@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展!传统 RL 假装您可以将所有奖励信号压缩为...
介绍了向量策略优化(VPO),一种新的 RL 方法,通过处理向量值奖励来改进 LLM 的测试时扩展,优于传统的标量奖励方法。
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。
向量策略优化:面向多样性的训练提升测试时搜索性能
本文介绍了一种名为向量策略优化(Vector Policy Optimization, VPO)的强化学习算法,该算法通过优化多个奖励维度来训练大语言模型生成多样化的解决方案,与标量强化学习基线相比,显著提升了测试时搜索性能。
分布鲁棒的列表级偏好优化
本文提出一种用于LLM对齐的分布鲁棒列表级偏好优化方法,处理排序标签不确定性,具有可处理的目标函数和强收敛性保证。
RL用于LLM的价值梯度假说
本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。