重新思考LLM强化学习中的散度正则化
摘要
本文介绍了DRPO,它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码,通过提供信任区域边界之外的连续梯度校正,提高了LLM强化学习的稳定性和效率。
查看缓存全文
缓存时间: 2026/06/10 05:44
论文页面 - 重新思考 LLM 强化学习中的散度正则化
来源:https://huggingface.co/papers/2606.09821
摘要
DRPO 通过用平滑的正则化替代硬掩码,改善了 LLM 强化学习的稳定性,该正则化在信任区域边界之外提供连续的梯度修正。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 已成为后训练大语言模型 (https://huggingface.co/papers?q=large%20language%20models) (LLMs) 的关键组成部分。实践中,由于训练-推理不匹配和策略陈旧,LLM 强化学习往往是离策略 (https://huggingface.co/papers?q=off-policy) 的,这使得信任区域控制 (https://huggingface.co/papers?q=trust-region%20control) 对于稳定优化至关重要。主流方法如 PPO (https://huggingface.co/papers?q=PPO) 和 GRPO (https://huggingface.co/papers?q=GRPO) 通过比率裁剪 (https://huggingface.co/papers?q=ratio-clipping) 机制来近似这种控制,但重要性比率 (https://huggingface.co/papers?q=importance%20ratio) 在长尾词汇中可能无法很好地代理分布偏移。近期工作如 DPPO (https://huggingface.co/papers?q=DPPO) 通过用基于散度的掩码 (https://huggingface.co/papers?q=divergence-based%20mask) 替代基于比率的裁剪,解决了这种不匹配问题,从而定义了一个由采样 token 绝对概率变化决定的信任区域。然而,DPPO (https://huggingface.co/papers?q=DPPO) 仍然依赖硬掩码:一旦某个 token 以有害方向越过了信任区域边界,其梯度会被丢弃而非修正。为解决这一问题,我们提出了散度正则化策略优化 (DRPO),该算法将硬掩码替换为一个基于优势加权的二次正则化器 (https://huggingface.co/papers?q=advantage-weighted%20quadratic%20regularizer),作用于策略偏移 (https://huggingface.co/papers?q=policy%20shift)。DRPO 保留了与 DPPO (https://huggingface.co/papers?q=DPPO) 相同的信任区域几何结构,同时引入有界、连续的梯度权重,这些权重会衰减发散更新,并在边界外提供修正信号。跨模型规模、架构和精度设置的实验表明,DRPO 提高了 LLM 强化学习训练的稳定性和效率。
查看 arXiv 页面 (https://arxiv.org/abs/2606.09821)查看 PDF (https://arxiv.org/pdf/2606.09821)GitHub324 (https://github.com/Tencent-Hunyuan/UniRL)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09821)
在你的 agent 中获取这篇论文:
hf papers read 2606\.09821
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。
引用此论文的数据集0
没有数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。
引用此论文的 Spaces0
没有 Space 关联此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面关联。
相似文章
ODRPO:离散奖励的序数分解用于鲁棒策略优化
介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。
超越LLM强化学习中的统一令牌级信任区域
本文介绍了CPPO,这是一种通过使用位置加权阈值和累积前缀预算来改进基于可验证奖励的LLM强化学习方法,旨在解决统一令牌级信任区域的局限性。
DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡
# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:
列表式策略优化:基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影
本文介绍了列表式策略优化(LPO),这是一种用于 RLVR 的方法,通过在响应单纯形上进行散度最小化来显式处理目标投影,从而提高大语言模型(LLM)的训练稳定性和性能。
自蒸馏策略梯度
SDPG(自蒸馏策略梯度)是一种面向大语言模型的全新强化学习训练框架,结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化,旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文,使同一模型同时充当学生和教师,在稳定性和性能上均优于RLVR及自蒸馏基线方法。