GD^2PO: 通过组动态奖励解耦策略优化缓解多奖励冲突
摘要
GD^2PO引入了一种冲突感知过滤机制,以缓解大型语言模型强化学习中的多奖励冲突,防止信号抵消并加速训练效率。
查看缓存全文
缓存时间: 2026/06/16 11:32
论文页面 - GD²PO:通过组动态奖励解耦策略优化缓解多奖励冲突
来源:https://huggingface.co/papers/2606.16771 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
在大语言模型中,多维奖励优化通过一种冲突感知过滤机制得到增强,该机制可防止信号抵消并加速强化学习效率。
随着 LLM 的进步,后训练强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) (RL) 越来越依赖多维奖励 (https://huggingface.co/papers?q=multi-dimensional%20rewards) 来培养综合能力。这一转变需要新的算法,能够同时优化多样且可能相互竞争的目标。为了解决这个问题,现有方法如组奖励解耦策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (GDPO) 将整体分数分解为独立的奖励组,然后在每组内分别计算 RL 损失。然而,这种策略仍然会遇到多奖励冲突:单次 rollout 可能会在某些奖励维度上产生正优势,而在其他维度上产生负优势,导致在聚合过程中相反信号相互抵消,进一步阻碍 RL 训练效率。受动态采样策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (DAPO) 的启发——该方法通过过滤掉优势接近零的无效 rollout 来提高 RL 训练效率——我们提出了组动态奖励解耦策略优化 (https://huggingface.co/papers?q=Policy%20Optimization) (GD²PO)。具体来说,GD²PO 采用一种冲突感知过滤 (https://huggingface.co/papers?q=conflict-aware%20filtering) 机制来屏蔽遭受严重奖励不一致的 rollout。通过防止冲突信号相互抵消,这种屏蔽策略保留并增强了有效 RL 优势的幅度,从而显著加快学习效率。此外,我们引入了查询级重加权 (https://huggingface.co/papers?q=query-level%20reweighting) 来根据每个查询的整体奖励共识动态调整其更新强度。在多种多奖励场景(包括工具调用和人类偏好对齐)上的实验表明,GD²PO 一致且显著地优于现有基线。代码可在 https://github.com/Qwen-Applications/GD2PO 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2606.16771) 查看 PDF (https://arxiv.org/pdf/2606.16771) GitHub5 (https://github.com/Qwen-Applications/GD2PO) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16771)
在您的代理中获取此论文:
hf papers read 2606.16771
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.16771,即可从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.16771,即可从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.16771,即可从此页面链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 中,即可从此页面链接。
相似文章
BiasGRPO:通过群体相对策略优化稳定高方差奖励环境中的偏见缓解
BiasGRPO 提出了一种利用群体相对策略优化(GRPO)的框架,通过对采样补全结果的奖励进行归一化,稳定 LLM 中社会偏见的缓解过程,在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型,可无缝集成到多目标 RLHF 流水线中。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
GAGPO:广义优势分组策略优化
GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。
驾驭极端 Token:基于高斯核优势重权重的协方差感知 GRPO
本文提出了一种协方差感知的组相对策略优化(GRPO)变体,该方法利用高斯核优势重权重技术来稳定训练熵,并提升大语言模型的推理性能。
用于离散策略优化的引导对比Token信用分配
本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。