重新思考LLM强化学习中的散度正则化

Hugging Face Daily Papers 论文

摘要

本文介绍了DRPO,它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码,通过提供信任区域边界之外的连续梯度校正,提高了LLM强化学习的稳定性和效率。

强化学习(RL)已成为大语言模型(LLM)后训练的关键组成部分。在实际中,由于训练-推理不匹配和策略陈旧,LLM强化学习通常是离策略的,因此信任区域控制对于稳定优化至关重要。主流方法如PPO和GRPO通过比率裁剪机制来近似这种控制,但在长尾词汇表中,重要性比率可能无法很好地反映分布偏移。最近的工作如DPPO通过用基于散度的掩码替换基于比率的裁剪来解决此不匹配问题,从而定义了由采样令牌的绝对概率偏移确定的信任区域。然而,DPPO仍然依赖于硬掩码:一旦令牌以有害方向越过信任区域边界,其梯度就会被丢弃而不是被校正。为了解决这个问题,我们提出了散度正则化策略优化(DRPO),它用平滑的优势加权二次正则化器替代了硬掩码,作用于策略偏移。DRPO保留了与DPPO相同的信任区域几何结构,同时产生有界、连续的梯度权重,这些权重衰减发散更新并提供边界之外的校正信号。跨模型规模、架构和精度设置的实验表明,DRPO提高了LLM强化学习训练的稳定性和效率。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:44

论文页面 - 重新思考 LLM 强化学习中的散度正则化

来源:https://huggingface.co/papers/2606.09821

摘要

DRPO 通过用平滑的正则化替代硬掩码,改善了 LLM 强化学习的稳定性,该正则化在信任区域边界之外提供连续的梯度修正。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 已成为后训练大语言模型 (https://huggingface.co/papers?q=large%20language%20models) (LLMs) 的关键组成部分。实践中,由于训练-推理不匹配和策略陈旧,LLM 强化学习往往是离策略 (https://huggingface.co/papers?q=off-policy) 的,这使得信任区域控制 (https://huggingface.co/papers?q=trust-region%20control) 对于稳定优化至关重要。主流方法如 PPO (https://huggingface.co/papers?q=PPO) 和 GRPO (https://huggingface.co/papers?q=GRPO) 通过比率裁剪 (https://huggingface.co/papers?q=ratio-clipping) 机制来近似这种控制,但重要性比率 (https://huggingface.co/papers?q=importance%20ratio) 在长尾词汇中可能无法很好地代理分布偏移。近期工作如 DPPO (https://huggingface.co/papers?q=DPPO) 通过用基于散度的掩码 (https://huggingface.co/papers?q=divergence-based%20mask) 替代基于比率的裁剪,解决了这种不匹配问题,从而定义了一个由采样 token 绝对概率变化决定的信任区域。然而,DPPO (https://huggingface.co/papers?q=DPPO) 仍然依赖硬掩码:一旦某个 token 以有害方向越过了信任区域边界,其梯度会被丢弃而非修正。为解决这一问题,我们提出了散度正则化策略优化 (DRPO),该算法将硬掩码替换为一个基于优势加权的二次正则化器 (https://huggingface.co/papers?q=advantage-weighted%20quadratic%20regularizer),作用于策略偏移 (https://huggingface.co/papers?q=policy%20shift)。DRPO 保留了与 DPPO (https://huggingface.co/papers?q=DPPO) 相同的信任区域几何结构,同时引入有界、连续的梯度权重,这些权重会衰减发散更新,并在边界外提供修正信号。跨模型规模、架构和精度设置的实验表明,DRPO 提高了 LLM 强化学习训练的稳定性和效率。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09821)查看 PDF (https://arxiv.org/pdf/2606.09821)GitHub324 (https://github.com/Tencent-Hunyuan/UniRL)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09821)

在你的 agent 中获取这篇论文:

hf papers read 2606\.09821

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。

引用此论文的数据集0

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。

引用此论文的 Spaces0

没有 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面关联。

相似文章

超越LLM强化学习中的统一令牌级信任区域

Hugging Face Daily Papers

本文介绍了CPPO,这是一种通过使用位置加权阈值和累积前缀预算来改进基于可验证奖励的LLM强化学习方法,旨在解决统一令牌级信任区域的局限性。

DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡

Hugging Face Daily Papers

# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:

自蒸馏策略梯度

arXiv cs.LG

SDPG(自蒸馏策略梯度)是一种面向大语言模型的全新强化学习训练框架,结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化,旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文,使同一模型同时充当学生和教师,在稳定性和性能上均优于RLVR及自蒸馏基线方法。