列表式策略优化：基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

本文介绍了列表式策略优化（LPO），这是一种用于 RLVR 的方法，通过在响应单纯形上进行散度最小化来显式处理目标投影，从而提高大语言模型（LLM）的训练稳定性和性能。

基于可验证奖励的强化学习（RLVR）已成为大语言模型（LLM）后训练阶段激励推理能力的标准方法。在现有的方法中，基于分组的策略梯度应用广泛，其针对每个提示采样一组响应，并通过组相对优势信号更新策略。这项工作揭示了这些优化策略共享一种常见的几何结构：它们隐式地在响应单纯形上定义了一个目标分布，并通过一阶近似向其投影。基于这一洞察，我们提出了列表式策略优化（LPO），以显式执行目标投影。该方法通过将近端强化学习目标限制在响应单纯形上，去除了隐式目标的迷雾，随后通过精确的散度最小化对策略进行投影。该框架提供了（i）在具有有界、零和及自校正投影梯度的列表式目标上的单调改进，以及（ii）通过解耦的投影步骤在选择具有不同结构特性的散度时的灵活性。在多种推理任务和大语言模型骨干网络上，LPO 在匹配的目标下 consistently 提升了相对于典型策略梯度基线的训练性能，同时内在保持了优化稳定性和响应的多样性。

查看原文

查看缓存全文

缓存时间: 2026/05/11 02:43

论文页面 - Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

来源: https://huggingface.co/papers/2605.06139 发表于 5 月 7 日

由 https://huggingface.co/yunqu 提交

Yun Qu (https://huggingface.co/yunqu) 于 5 月 11 日

#1 每日论文 (https://huggingface.co/papers/date/2026-05-11) 作者:

摘要

强化学习中基于可验证奖励的组策略梯度方法共享一种共同的几何结构，这促使了列表策略优化（Listwise Policy Optimization）的发展，该方法通过最小化散度来进行显式的目标投影，从而提高了训练性能和稳定性。

带有可验证奖励的强化学习（Reinforcement learning with verifiable rewards, RLVR）已成为大型语言模型（LLMs）后训练的标准方法，旨在激励推理能力。在现有的方法中，组策略梯度（group-based policy gradient）应用广泛，它为每个提示采样一组回复，并通过组相对优势信号更新策略。这项工作揭示，这些优化策略共享一种共同的几何结构：每种方法都在回复单纯形（response simplex）上隐式定义了一个目标分布（target distribution），并通过一阶近似（first-order approximation）向该目标进行投影。基于这一洞察，我们提出了列表策略优化（Listwise Policy Optimization, LPO），以显式执行目标投影。LPO 通过将近端 RL 目标（proximal RL objective）限制在回复单纯形上，来揭示隐式目标的本质，然后通过精确的散度最小化（divergence minimization）对策略进行投影。该框架提供了：(i) 在列表目标上的单调改进（monotonic improvement），其投影梯度（projection gradients）具有有界性、零和性及自纠错特性；以及 (ii) 通过解耦的投影步骤，在散度选择上具有灵活性，具备不同的结构属性。在多样化的推理任务和 LLM 骨干模型上，LPO 在匹配的目标下，始终优于典型的策略梯度（policy gradient）基线模型的训练性能，同时内在保持了优化稳定性和回复多样性。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06139) 查看 PDF (https://arxiv.org/pdf/2605.06139) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.06139)

在你的代理中获取此论文：

hf papers read 2605\.06139

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.06139 以在此页面链接它。

引用此论文的数据集 0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.06139 以在此页面链接它。

引用此论文的 Space 0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.06139 以在此页面链接它。

包含此论文的集合 0

无集合包含此论文

将此论文添加到集合 (https://huggingface.co/new-collection) 以在此页面链接它。

列表式策略优化：基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影

论文页面 - Listwise Policy Optimization: Group-based RLVR as Target-Projection on the LLM Response Simplex

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的集合 0

相似文章

@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展！传统 RL 假装您可以将所有奖励信号压缩为...

基于梯度外推的策略优化

向量策略优化：面向多样性的训练提升测试时搜索性能

分布鲁棒的列表级偏好优化

RL用于LLM的价值梯度假说

提交意见反馈