重新思考LLM强化学习中的散度正则化

Hugging Face Daily Papers 2026/06/08 00:00 论文

摘要

本文介绍了DRPO，它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码，通过提供信任区域边界之外的连续梯度校正，提高了LLM强化学习的稳定性和效率。

强化学习（RL）已成为大语言模型（LLM）后训练的关键组成部分。在实际中，由于训练-推理不匹配和策略陈旧，LLM强化学习通常是离策略的，因此信任区域控制对于稳定优化至关重要。主流方法如PPO和GRPO通过比率裁剪机制来近似这种控制，但在长尾词汇表中，重要性比率可能无法很好地反映分布偏移。最近的工作如DPPO通过用基于散度的掩码替换基于比率的裁剪来解决此不匹配问题，从而定义了由采样令牌的绝对概率偏移确定的信任区域。然而，DPPO仍然依赖于硬掩码：一旦令牌以有害方向越过信任区域边界，其梯度就会被丢弃而不是被校正。为了解决这个问题，我们提出了散度正则化策略优化（DRPO），它用平滑的优势加权二次正则化器替代了硬掩码，作用于策略偏移。DRPO保留了与DPPO相同的信任区域几何结构，同时产生有界、连续的梯度权重，这些权重衰减发散更新并提供边界之外的校正信号。跨模型规模、架构和精度设置的实验表明，DRPO提高了LLM强化学习训练的稳定性和效率。

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:44

论文页面 - 重新思考 LLM 强化学习中的散度正则化

来源：https://huggingface.co/papers/2606.09821

摘要

DRPO 通过用平滑的正则化替代硬掩码，改善了 LLM 强化学习的稳定性，该正则化在信任区域边界之外提供连续的梯度修正。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 已成为后训练大语言模型 (https://huggingface.co/papers?q=large%20language%20models) (LLMs) 的关键组成部分。实践中，由于训练-推理不匹配和策略陈旧，LLM 强化学习往往是离策略 (https://huggingface.co/papers?q=off-policy) 的，这使得信任区域控制 (https://huggingface.co/papers?q=trust-region%20control) 对于稳定优化至关重要。主流方法如 PPO (https://huggingface.co/papers?q=PPO) 和 GRPO (https://huggingface.co/papers?q=GRPO) 通过比率裁剪 (https://huggingface.co/papers?q=ratio-clipping) 机制来近似这种控制，但重要性比率 (https://huggingface.co/papers?q=importance%20ratio) 在长尾词汇中可能无法很好地代理分布偏移。近期工作如 DPPO (https://huggingface.co/papers?q=DPPO) 通过用基于散度的掩码 (https://huggingface.co/papers?q=divergence-based%20mask) 替代基于比率的裁剪，解决了这种不匹配问题，从而定义了一个由采样 token 绝对概率变化决定的信任区域。然而，DPPO (https://huggingface.co/papers?q=DPPO) 仍然依赖硬掩码：一旦某个 token 以有害方向越过了信任区域边界，其梯度会被丢弃而非修正。为解决这一问题，我们提出了散度正则化策略优化 (DRPO)，该算法将硬掩码替换为一个基于优势加权的二次正则化器 (https://huggingface.co/papers?q=advantage-weighted%20quadratic%20regularizer)，作用于策略偏移 (https://huggingface.co/papers?q=policy%20shift)。DRPO 保留了与 DPPO (https://huggingface.co/papers?q=DPPO) 相同的信任区域几何结构，同时引入有界、连续的梯度权重，这些权重会衰减发散更新，并在边界外提供修正信号。跨模型规模、架构和精度设置的实验表明，DRPO 提高了 LLM 强化学习训练的稳定性和效率。

查看 arXiv 页面 (https://arxiv.org/abs/2606.09821)查看 PDF (https://arxiv.org/pdf/2606.09821)GitHub324 (https://github.com/Tencent-Hunyuan/UniRL)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.09821)

在你的 agent 中获取这篇论文：

hf papers read 2606\.09821

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。

引用此论文的数据集0

没有数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。

引用此论文的 Spaces0

没有 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.09821 即可从此页面关联。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面关联。

重新思考LLM强化学习中的散度正则化

论文页面 - 重新思考 LLM 强化学习中的散度正则化

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

ODRPO：离散奖励的序数分解用于鲁棒策略优化

超越LLM强化学习中的统一令牌级信任区域

DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡

列表式策略优化：基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影

自蒸馏策略梯度

提交意见反馈