用于离散策略优化的引导对比Token信用分配
摘要
本文提出引导对比策略优化(GCPO),这是一种新颖的算法,通过对比正负提示下的模型预测,在强化学习中实现每个Token的信用分配,在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。
查看缓存全文
缓存时间: 2026/06/01 19:21
论文页面 - 用于离散策略优化的引导对比令牌信用分配
来源:https://huggingface.co/papers/2605.29198
摘要
GCPO 通过在正向提示和负向提示下对比模型预测,实现了强化学习中的每令牌信用分配,从而提升了文本到图像生成和思维链推理任务的性能。
基于组优势的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)方法,例如 GRPO(https://huggingface.co/papers?q=GRPO)和 DAPO(https://huggingface.co/papers?q=DAPO),已在包括数学推理和文本到图像生成(https://huggingface.co/papers?q=text-to-image%20generation)在内的多个领域展现出强大性能。然而,这些方法依赖于样本级奖励,这带来了一个关键局限性:对所有令牌采用统一的信用分配无法捕捉细粒度的令牌级贡献。为解决这一问题,我们提出了引导对比策略优化(https://huggingface.co/papers?q=Guidance%20Contrastive%20Policy%20Optimization)(GCPO),这是一种新颖的算法,通过对比正向提示和负向提示下的模型预测来实现每令牌信用分配。GCPO 并非均匀地广播样本级优势,而是根据这些对比预测(https://huggingface.co/papers?q=contrastive%20predictions)之间的差异分配令牌级优势,从而提供更精确、更具信息量的学习信号。实验发现,GCPO 强调了与语义相关的区域,例如在文本到图像生成(https://huggingface.co/papers?q=text-to-image%20generation)中与文本提示对齐的视觉区域,以及在思维链任务中推理轨迹中的关键关键词。通过大量实验,GCPO 在文本到图像生成(https://huggingface.co/papers?q=text-to-image%20generation)和思维链推理(https://huggingface.co/papers?q=chain-of-thought%20reasoning)基准测试上均持续优于 GRPO(https://huggingface.co/papers?q=GRPO)和 DAPO(https://huggingface.co/papers?q=DAPO)基线,证明了其作为一种通用且可扩展的离散策略学习(https://huggingface.co/papers?q=discrete%20policy%20learning)优化策略的有效性。
查看 arXiv 页面(https://arxiv.org/abs/2605.29198)查看 PDF(https://arxiv.org/pdf/2605.29198)GitHub0(https://github.com/jacklishufan/gcpo)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29198)
在你的智能体中获取此论文:
hf papers read 2605\.29198
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.29198 以将其链接到此页面。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.29198 以将其链接到此页面。
引用此论文的 Space0
没有 Space 链接到此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.29198 以将其链接到此页面。
包含此论文的集合0
没有包含此论文的集合
请将此论文添加到集合(https://huggingface.co/new-collection)中以将其链接到此页面。
相似文章
通过反事实推理路径减少信用分配方差
提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。
CEPO:基于对比证据策略优化的RLVR自我蒸馏
CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
驾驭极端 Token:基于高斯核优势重权重的协方差感知 GRPO
本文提出了一种协方差感知的组相对策略优化(GRPO)变体,该方法利用高斯核优势重权重技术来稳定训练熵,并提升大语言模型的推理性能。
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。