GD^2PO: 通过组动态奖励解耦策略优化缓解多奖励冲突

Hugging Face Daily Papers 论文

摘要

GD^2PO引入了一种冲突感知过滤机制,以缓解大型语言模型强化学习中的多奖励冲突,防止信号抵消并加速训练效率。

随着大型语言模型(LLM)的发展,后训练强化学习(RL)越来越依赖多维奖励来培养全面的能力。这种转变需要新的算法,能够同时优化多样且可能相互竞争的目标。为了解决这一问题,现有方法如组奖励解耦策略优化(GDPO)将总体得分分解为独立的奖励组,然后在每个组内分别计算RL损失。然而,这种策略仍然会遇到多奖励冲突:单次生成在某些奖励维度上可能产生正向优势,但在其他维度上产生负向优势,导致在聚合过程中对立信号相互抵消,进一步阻碍RL训练效率。受动态采样策略优化(DAPO)的启发——DAPO通过过滤掉具有近似零优势的低效生成来提升RL训练效率——我们提出了组动态奖励解耦策略优化(GD^2PO)。具体来说,GD^2PO采用了一种冲突感知过滤机制,来屏蔽那些遭受严重奖励维度不一致的生成。通过防止冲突信号相互抵消,这种屏蔽策略保留并增强了有效RL优势的幅度,从而显著加速学习效率。此外,我们还引入了查询级重新加权,根据每个查询的整体奖励共识动态调整其更新强度。在包括工具调用和人类偏好对齐在内的多种多奖励场景下的实验表明,GD^2PO持续且显著地优于现有基线。代码可在https://github.com/Qwen-Applications/GD2PO获取。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:32

论文页面 - GD²PO:通过组动态奖励解耦策略优化缓解多奖励冲突

来源:https://huggingface.co/papers/2606.16771 作者:

,

,

,

,

,

,

,

,

,

,

,

,

摘要

在大语言模型中,多维奖励优化通过一种冲突感知过滤机制得到增强,该机制可防止信号抵消并加速强化学习效率。

随着 LLM 的进步,后训练强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) (RL) 越来越依赖多维奖励 (https://huggingface.co/papers?q=multi-dimensional%20rewards) 来培养综合能力。这一转变需要新的算法,能够同时优化多样且可能相互竞争的目标。为了解决这个问题,现有方法如组奖励解耦策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (GDPO) 将整体分数分解为独立的奖励组,然后在每组内分别计算 RL 损失。然而,这种策略仍然会遇到多奖励冲突:单次 rollout 可能会在某些奖励维度上产生正优势,而在其他维度上产生负优势,导致在聚合过程中相反信号相互抵消,进一步阻碍 RL 训练效率。受动态采样策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (DAPO) 的启发——该方法通过过滤掉优势接近零的无效 rollout 来提高 RL 训练效率——我们提出了组动态奖励解耦策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (GD²PO)。具体来说,GD²PO 采用一种冲突感知过滤 (https://huggingface.co/papers?q=conflict-aware%20filtering) 机制来屏蔽遭受严重奖励不一致的 rollout。通过防止冲突信号相互抵消,这种屏蔽策略保留并增强了有效 RL 优势的幅度,从而显著加快学习效率。此外,我们引入了查询级重加权 (https://huggingface.co/papers?q=query-level%20reweighting) 来根据每个查询的整体奖励共识动态调整其更新强度。在多种多奖励场景(包括工具调用和人类偏好对齐)上的实验表明,GD²PO 一致且显著地优于现有基线。代码可在 https://github.com/Qwen-Applications/GD2PO 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16771) 查看 PDF (https://arxiv.org/pdf/2606.16771) GitHub5 (https://github.com/Qwen-Applications/GD2PO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16771)

在您的代理中获取此论文:

hf papers read 2606.16771

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16771,即可从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16771,即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16771,即可从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 中,即可从此页面链接。

相似文章

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。

GAGPO:广义优势分组策略优化

arXiv cs.AI

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。

用于离散策略优化的引导对比Token信用分配

Hugging Face Daily Papers

本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。