ODRPO:离散奖励的序数分解用于鲁棒策略优化

arXiv cs.LG 论文

摘要

介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。

arXiv:2605.12667v1 公告类型:新 摘要:大型语言模型(LLM)的对齐利用基于AI反馈的强化学习(RLAIF)来处理非可验证领域,如长文本问答和开放式指令遵循。这些领域通常依赖基于LLM的自动评分器提供细粒度的多级离散奖励(例如1-10分制),但由于提示敏感性和采样随机性,这些奖励本质上是随机性的。我们实验验证了自动评分器的随机性可能会传播并破坏标准优势估计器(如GRPO和MaxRL),因为噪声奖励样本可能会扭曲归一化统计量并降低全局学习信号。实际上,采样更多奖励并进行多数投票可以减少噪声并提高性能,但这种方法计算开销大。为解决这一瓶颈,我们提出了$\textbf{O}$rdinal $\textbf{D}$ecomposition for $\textbf{R}$obust $\textbf{P}$olicy $\textbf{O}$ptimization($\textbf{ODRPO}$),这是一种通过将离散奖励分解为序数二元指标序列来结构性隔离评估噪声的框架。通过独立计算并累积这些逐渐困难的成功阈值上的优势,ODRPO防止异常评估破坏全局更新,同时建立隐式的方差感知学习课程。实验表明,ODRPO在Qwen2.5-7B和Qwen3-4B模型上性能稳健,在FACTS-grounding-v2上相对改进最高达14.8%,在Alpaca-Evals上达7.5%,均优于基线。关键是,这些增益仅以极小的训练时间开销实现,因为与标准估计器相比,ODRPO每步无需额外计算。在理论分析验证其优化稳定性支持下,ODRPO为现代RLAIF中嘈杂的离散评估环境下的模型对齐提供了一个可扩展且稳健的框架。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:17

# ODRPO: 离散奖励的序数分解以实现稳健策略优化
来源: https://arxiv.org/html/2605.12667
Nirmal Patel(德克萨斯大学奥斯汀分校) nirmpatel@utexas\.edu &Fei Wang(谷歌) feiwangnlp@google\.com &Inderjit S\. Dhillon(谷歌) isd@google\.com
###### 摘要
大语言模型(LLMs)的对齐越来越依赖于来自不可验证领域(如长文本问答和开放式指令遵循)的基于AI反馈的强化学习(RLAIF)。这些领域通常依赖基于LLM的自动评分器提供细粒度的、多层级离散奖励(例如1-10分制),这些奖励由于提示敏感性和采样随机性而固有地具有随机性。我们通过实验验证了自动评分器的随机性,这种随机性可能会传播并破坏像GRPO和MaxRL这样的标准优势估计器,因为一个噪声奖励样本可能会扭曲归一化统计量并损害全局学习信号。实验证明,采样更多奖励并进行多数投票可以减少噪声并提升性能,但这种方法计算成本高昂。为解决这一瓶颈,我们引入了面向稳健策略优化的序数分解(ODRPO)框架,该框架通过将离散奖励分解为一系列序数二元指标来结构性地隔离评估噪声。通过独立计算并累积这些渐进式的成功阈值上的优势,ODRPO防止了异常评估破坏全局更新,同时建立了一个隐式的、方差感知的学习课程。实验结果表明,ODRPO在Qwen2.5-7B和Qwen3-4B模型上取得了稳健的性能,在FACTS-grounding-v2和Alpaca-Evals上分别相比基线取得了高达14.8%和7.5%的相对改进。关键是,这些增益是在训练时间开销可忽略不计的情况下实现的,因为ODRPO相比标准估计器每步无需额外计算。理论上分析证实了其优化稳定性,ODRPO为在噪声、离散评估环境下的现代RLAIF中对齐模型提供了一个可扩展且稳健的框架。
## 1 引言
强化学习(RL)已成为语言建模领域中一种突出的后训练方法。随着可验证奖励的强化学习(RLVR)在编程和数学等领域取得显著成功(Guo et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib1)),人们开始推动将RLVR应用到其他可验证领域,如谜题求解、科学文献综述和视觉感知(Chen et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib2); Burgess et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib3); Wang et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib4))。然而,许多任务本质上是不可验证的,例如长文本问答和开放式指令遵循,因为它们缺乏固定的真实值,并且不能简单地通过RLVR解决(Liu et al., 2026b (https://arxiv.org/html/2605.12667#bib.bib5); Gunjal et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib32))。对于这些开放式领域,自动评分器或“LLM作为裁判”框架因其快速标注能力和灵活的评分标准遵循性而受到青睐,作为与人类偏好紧密对齐的替代奖励函数(Lee et al., 2024 (https://arxiv.org/html/2605.12667#bib.bib11); Gunjal et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib32))。自动评分器还提供了基于详细评分标准或部分评分输出离散奖励的灵活性,提供更细粒度的学习信号(Kwok et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib10))。因此,基于AI反馈的强化学习(RLAIF)已成为不可验证领域的一种可扩展且可靠的后训练范式(Lee et al., 2024 (https://arxiv.org/html/2605.12667#bib.bib11); Liu et al., 2026b (https://arxiv.org/html/2605.12667#bib.bib5); Gunjal et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib32))。

虽然RLAIF在不可验证领域正成为一种标准实践,但它引入了由于自动评分器固有随机性而导致的噪声奖励信号的挑战。这种噪声可能源于提示敏感性、位置偏差和评分标准误解(Zhao et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib6); Shi et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib7); Li et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib8))。这种不可预测性对像GRPO(Shao et al., 2024 (https://arxiv.org/html/2605.12667#bib.bib13))和MaxRL(Tajwar et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib16))这样的标准优势估计器构成了重大挑战,这些估计器隐含地假设奖励信号的可靠性。在自动评分器的随机性下,优势估计可能会被破坏。单个噪声奖励样本可能会扭曲归一化统计量,负面地影响整个群体的更新。虽然蒙特卡洛采样可以缓解这种方差,但它在计算上仍然昂贵且在大规模应用中难以处理,因为它会成倍增加自动评分器调用的成本,而自动评分器调用通常比策略模型的响应采样更昂贵。

在这项工作中,我们提出了面向稳健策略优化的序数分解(ODRPO),这是一个旨在稳定离散奖励设置下RLAIF中优化信号的框架。我们将单个标量奖励分解为表示序数成功级别的多个子奖励,独立计算每个级别的优势,然后累加这些值,有效地将单奖励优化转化为多奖励形式。将奖励分解为序数阈值将评估者的随机性限制在狭窄的边界层内,防止单个噪声评估破坏用于归一化的全局均值和方差,并在奖励分布的其余部分保留稳定的学习信号。此外,我们引入了方差感知加权方案,利用动态加权函数系统地抑制来自完全解决或当前无法实现的评估标准的噪声,将模型的能力集中在主动学习前沿上。至关重要的是,这种结构性分解不会引入可测量的训练时间开销,这使得ODRPO成为大规模对齐工作流中传统优势估计器的一种高度高效的“即插即用”增强。

我们在RLAIF设置下评估了ODRPO,针对标准GRPO和MaxRL估计器,在三个不同的基准上:FACTS-grounding-v2(Cheng et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib26))、Alpaca-Eval(Li et al., 2023 (https://arxiv.org/html/2605.12667#bib.bib30))和IFEval(Zhou et al., 2023 (https://arxiv.org/html/2605.12667#bib.bib22))。我们的实验结果表明,ODRPO持续地优于基线,在FACTS-grounding-v2上实现了高达14.8%的相对性能提升,在Alpaca-Evals上实现了7.5%的相对性能提升。这些增益突显了该框架从随机评估器中提取稳健对齐信号的能力。除了这些经验上的相对改进,我们还提供了理论分析,说明序数分解如何确保估计器具有定义良好的全局标量目标,从而稳定优化轨迹。

我们的核心贡献有三点。首先,我们从经验上识别了多层级离散奖励空间中自动评分器的随机性,并分析了其方差及对排名翻转的影响。其次,我们引入了ODRPO,一种新颖的优势估计框架,具有序数奖励分解和方差感知加权方案,以结构性隔离和抑制评估者噪声。第三,我们提供了全面的经验验证,展示了在多样化开放式对齐任务上的稳健改进,并辅以理论分析确认该框架的稳定性。
## 2 相关工作
大语言模型(LLMs)与人类意图和逻辑一致性的对齐主要围绕基于人类反馈的强化学习(RLHF)框架展开。早期进展主要是由近端策略优化(PPO)(Schulman et al., 2017 (https://arxiv.org/html/2605.12667#bib.bib12))推动的,该算法依赖于一个集中的评论家网络来缓解梯度方差。虽然PPO仍然是一个稳健的基线,但维护辅助价值模型所需的大量计算开销促使人们寻找更高效的资源替代方案。这方面的一个重要进展是群体相对策略优化(GRPO)(Shao et al., 2024 (https://arxiv.org/html/2605.12667#bib.bib13)),它避免了传统的评论家,转而相对于一组采样输出计算优势。通过利用这些局部替代,GRPO显著减少了内存占用,同时在复杂的数学推理任务上保持了高性能。与此同时,直接偏好优化(DPO)(Rafailov et al., 2024 (https://arxiv.org/html/2605.12667#bib.bib35))已成为一种突出的离线替代方案,将对齐任务重新表述为监督交叉熵损失。虽然DPO为基于偏好的数据提供了理论清晰性,但它本质上受到静态数据集多样性的限制,并且缺乏推理密集型领域所需的动态探索能力(Mohammadi et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib36))。对于这些任务,在线强化学习仍然是首选的范式。

为了进一步扩展这些方法,基于AI反馈的强化学习(RLAIF)(Lee et al., 2024 (https://arxiv.org/html/2605.12667#bib.bib11))利用高容量模型作为代理评估器,提供了一种可扩展的机制来生成合成奖励信号。这种向自动化、多层面反馈的转变进一步要求对在线估计器实际优化的目标进行严格的理论理解。最近的理论进展将策略梯度方法的全局优化景观形式化,证明在二元奖励设置下,诸如GRPO、拒绝采样和REINFORCE等突出的优势估计器具有定义良好的全局标量目标(Davis and Recht, 2025 (https://arxiv.org/html/2605.12667#bib.bib15))。在此框架基础上逐步构建,MaxRL通过分析拒绝采样与对数麦克劳林级数展开之间的理论联系,阐明了调用最大似然行为的路径,并确立了随着群体规模增大,估计器收敛到真正的最大似然目标(Tajwar et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib16))。这一理论收敛得到了实验的支持,表明MaxRL实现了与标准交叉熵基线紧密匹配的性能。与此相关的是,GDPO识别了GRPO在应用于多个二元奖励环境时的结构性限制,在这种环境中,将不同的奖励元组捆绑成单个优势值本质上会降低信号的表达力(Liu et al., 2026a (https://arxiv.org/html/2605.12667#bib.bib14))。为了解决这个问题,GDPO在累加之前为每个单独的奖励解耦优势计算,从而保留了比标准GRPO更密集且信息量更丰富的优化信号(Liu et al., 2026a (https://arxiv.org/html/2605.12667#bib.bib14))。

ODRPO综合并扩展了这些基本原则,以应对任意离散奖励空间中的独特挑战。虽然先前的分析为二元结果建立了标量目标(Davis and Recht, 2025 (https://arxiv.org/html/2605.12667#bib.bib15)),但将这些估计器扩展到任意离散奖励会引入更新场不对称性,使得标量目标在理论上不可行。因此,像GRPO和MaxRL这样的标准估计器在这种背景下无法接受全局标量目标。ODRPO通过提供一个正式框架来解决这一理论空白,保证具有有效二元目标的估计器在离散奖励设置中保留一个全局标量目标。此外,虽然ODRPO利用类似于GDPO的解耦优势计算,但它将该机制应用于在单个离散奖励尺度内创建序数级别,而不是并行的二元任务。在这种单一离散奖励的背景下,GDPO仍然等同于GRPO,因此受到相同的理论限制。这种成功-序数分解建立了一个隐式课程(Narvekar et al., 2020 (https://arxiv.org/html/2605.12667#bib.bib31)),在结构上指导策略优化过程跨越渐进挑战性的质量阈值。
## 3 自动评分器奖励表现出高方差
RLAIF在从RLVR扩展到不可验证领域时变得越来越重要且被广泛使用。然而,近期研究的证据表明,基于LLM的自动评分器由于提示敏感性和采样随机性,通常表现出高方差(Zhao et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib6); Shi et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib7); Li et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib8))。这引发了人们的担忧,即这种随机性是否表现为不一致的奖励信号,这从根本上会削弱它们作为RL稳定反馈的可靠性。如果一个自动评分器对固定提示的\(M\)个响应进行\(N\)次独立评估,导致频繁的排名翻转,表现为缺乏共识和高评估方差,那么该自动评分器就被认为是随机的。排名一致性可以使用肯德尔和谐系数或肯德尔\(W\)(Kendall and Smith, 1939 (https://arxiv.org/html/2605.12667#bib.bib37))来量化。如果\(W\sim 0\),则自动评分器高度不一致;如果\(W\sim 1\),则自动评分器一致。我们推测,当\(W\geq 0.9\)时,表明自动评分器对于稳定的后训练来说是相当一致的,因为\(N\)个“虚拟裁判”源自同一个自动评分器。

我们使用Qwen3-30B-A3B-Instruct-2507(Team, 2025 (https://arxiv.org/html/2605.12667#bib.bib18))作为自动评分器,Qwen2.5-7B-Instruct(Yang et al., 2024 (https://arxiv.org/html/2605.12667#bib.bib17))作为响应生成器,对Ultrafeedback数据集(Cui et al., 2023 (https://arxiv.org/html/2605.12667#bib.bib20))中随机采样的1000个数据点进行了统计分析。这1000个数据点的样本具有代表性,因为Ultrafeedback数据集本质上广泛且丰富(Jiang et al., 2025 (https://arxiv.org/html/2605.12667#bib.bib40); Deng et al., 2026 (https://arxiv.org/html/2605.12667#bib.bib41))。对于每个数据点,我们生成了\(M=8\)个响应,并为每个响应提取了\(N=16\)个1到10之间的分数;这给出了1000个\(M\times N\)的矩阵。我们通过Pingouin(Vallat, 2018 (https://arxiv.org/html/2605.12667#bib.bib38))对1000个\(M\times N\)矩阵进行了肯德尔和谐系数(Kendall's W)的显著性检验。不同数据点的Kendall's W值如图1所示,进一步的分析见附录A。

![参考图注](https://arxiv.org/html/2605.12667#S3.F1)
图1:肯德尔和谐系数,针对Ultrafeedback数据集(Cui et al., 2023 (https://arxiv.org/html/2605.12667#bib.bib20))中1000个数据点,使用Qwen3-30B-A3B-Instruct-2507(Team, 2025 (https://arxiv.org/html/2605.12667#bib.bib18))作为自动评分器和Qwen2.5-7B-Instruct(Yang et al., 2024 (https://arxiv.org/html/2605.12667#bib.bib17))作为响应生成器。中位数肯德尔W为0.614。

相似文章

DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡

Hugging Face Daily Papers

# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:

xi-DPO:通过比率奖励边际的直接偏好优化

arXiv cs.LG

本文介绍了 xi-DPO,这是一种新颖的偏好优化方法,通过将目标重构为最小化与最优比率奖励边际的距离,解决了 SimPO 中的超参数调整难题。实验结果表明,xi-DPO 在开放基准测试中优于现有方法。

基于评分细则的在策略蒸馏

Hugging Face Daily Papers

本文提出了 ROPD,一种基于评分细则的在策略蒸馏框架,相比传统的基于 logits 的方法,该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits,实现了黑盒场景下的模型对齐。