GD^2PO: 通过组动态奖励解耦策略优化缓解多奖励冲突

Hugging Face Daily Papers 2026/06/15 00:00 论文

摘要

GD^2PO引入了一种冲突感知过滤机制，以缓解大型语言模型强化学习中的多奖励冲突，防止信号抵消并加速训练效率。

随着大型语言模型（LLM）的发展，后训练强化学习（RL）越来越依赖多维奖励来培养全面的能力。这种转变需要新的算法，能够同时优化多样且可能相互竞争的目标。为了解决这一问题，现有方法如组奖励解耦策略优化（GDPO）将总体得分分解为独立的奖励组，然后在每个组内分别计算RL损失。然而，这种策略仍然会遇到多奖励冲突：单次生成在某些奖励维度上可能产生正向优势，但在其他维度上产生负向优势，导致在聚合过程中对立信号相互抵消，进一步阻碍RL训练效率。受动态采样策略优化（DAPO）的启发——DAPO通过过滤掉具有近似零优势的低效生成来提升RL训练效率——我们提出了组动态奖励解耦策略优化（GD^2PO）。具体来说，GD^2PO采用了一种冲突感知过滤机制，来屏蔽那些遭受严重奖励维度不一致的生成。通过防止冲突信号相互抵消，这种屏蔽策略保留并增强了有效RL优势的幅度，从而显著加速学习效率。此外，我们还引入了查询级重新加权，根据每个查询的整体奖励共识动态调整其更新强度。在包括工具调用和人类偏好对齐在内的多种多奖励场景下的实验表明，GD^2PO持续且显著地优于现有基线。代码可在https://github.com/Qwen-Applications/GD2PO获取。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:32

论文页面 - GD²PO：通过组动态奖励解耦策略优化缓解多奖励冲突

来源：https://huggingface.co/papers/2606.16771 作者：

摘要

在大语言模型中，多维奖励优化通过一种冲突感知过滤机制得到增强，该机制可防止信号抵消并加速强化学习效率。

随着 LLM 的进步，后训练强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) (RL) 越来越依赖多维奖励 (https://huggingface.co/papers?q=multi-dimensional%20rewards) 来培养综合能力。这一转变需要新的算法，能够同时优化多样且可能相互竞争的目标。为了解决这个问题，现有方法如组奖励解耦策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (GDPO) 将整体分数分解为独立的奖励组，然后在每组内分别计算 RL 损失。然而，这种策略仍然会遇到多奖励冲突：单次 rollout 可能会在某些奖励维度上产生正优势，而在其他维度上产生负优势，导致在聚合过程中相反信号相互抵消，进一步阻碍 RL 训练效率。受动态采样策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (DAPO) 的启发——该方法通过过滤掉优势接近零的无效 rollout 来提高 RL 训练效率——我们提出了组动态奖励解耦策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (GD²PO)。具体来说，GD²PO 采用一种冲突感知过滤 (https://huggingface.co/papers?q=conflict-aware%20filtering) 机制来屏蔽遭受严重奖励不一致的 rollout。通过防止冲突信号相互抵消，这种屏蔽策略保留并增强了有效 RL 优势的幅度，从而显著加快学习效率。此外，我们引入了查询级重加权 (https://huggingface.co/papers?q=query-level%20reweighting) 来根据每个查询的整体奖励共识动态调整其更新强度。在多种多奖励场景（包括工具调用和人类偏好对齐）上的实验表明，GD²PO 一致且显著地优于现有基线。代码可在 https://github.com/Qwen-Applications/GD2PO 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16771) 查看 PDF (https://arxiv.org/pdf/2606.16771) GitHub5 (https://github.com/Qwen-Applications/GD2PO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16771)

在您的代理中获取此论文：

hf papers read 2606.16771

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16771，即可从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16771，即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16771，即可从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 中，即可从此页面链接。

GD^2PO: 通过组动态奖励解耦策略优化缓解多奖励冲突

论文页面 - GD²PO：通过组动态奖励解耦策略优化缓解多奖励冲突

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

BiasGRPO：通过群体相对策略优化稳定高方差奖励环境中的偏见缓解

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

GAGPO：广义优势分组策略优化

驾驭极端 Token：基于高斯核优势重权重的协方差感知 GRPO

面向进度与可靠性的智能体强化学习组策略优化

提交意见反馈