用于离散策略优化的引导对比Token信用分配

Hugging Face Daily Papers 2026/05/29 00:00 论文

摘要

本文提出引导对比策略优化（GCPO），这是一种新颖的算法，通过对比正负提示下的模型预测，在强化学习中实现每个Token的信用分配，在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线。

基于组优势的强化学习方法（如GRPO和DAPO）在包括数学推理和文本到图像生成在内的多个领域展现出强劲性能。然而，它们对样本级奖励的依赖引入了一个关键限制：所有Token上的均匀信用分配无法捕捉细粒度的Token级贡献。为解决这一问题，我们提出引导对比策略优化（GCPO），这是一种通过对比正负提示下的模型预测来实现每个Token信用分配的新颖算法。GCPO并非均匀广播样本级优势，而是根据这些对比预测之间的差异分配Token级优势，从而提供更精确且信息量更大的学习信号。实验发现，GCPO强调语义相关区域，例如文本到图像生成中与文本提示对齐的视觉区域，以及思维链任务中推理轨迹内的关键关键词。通过大量实验，GCPO在文本到图像生成和思维链推理基准测试中持续优于GRPO和DAPO基线，证明了其作为一种通用且可扩展的优化策略在离散策略学习中的有效性。

查看原文

查看缓存全文

缓存时间: 2026/06/01 19:21

论文页面 - 用于离散策略优化的引导对比令牌信用分配

来源：https://huggingface.co/papers/2605.29198

摘要

GCPO 通过在正向提示和负向提示下对比模型预测，实现了强化学习中的每令牌信用分配，从而提升了文本到图像生成和思维链推理任务的性能。

基于组优势的强化学习（https://huggingface.co/papers?q=reinforcement%20learning）方法，例如 GRPO（https://huggingface.co/papers?q=GRPO）和 DAPO（https://huggingface.co/papers?q=DAPO），已在包括数学推理和文本到图像生成（https://huggingface.co/papers?q=text-to-image%20generation）在内的多个领域展现出强大性能。然而，这些方法依赖于样本级奖励，这带来了一个关键局限性：对所有令牌采用统一的信用分配无法捕捉细粒度的令牌级贡献。为解决这一问题，我们提出了引导对比策略优化（https://huggingface.co/papers?q=Guidance%20Contrastive%20Policy%20Optimization）（GCPO），这是一种新颖的算法，通过对比正向提示和负向提示下的模型预测来实现每令牌信用分配。GCPO 并非均匀地广播样本级优势，而是根据这些对比预测（https://huggingface.co/papers?q=contrastive%20predictions）之间的差异分配令牌级优势，从而提供更精确、更具信息量的学习信号。实验发现，GCPO 强调了与语义相关的区域，例如在文本到图像生成（https://huggingface.co/papers?q=text-to-image%20generation）中与文本提示对齐的视觉区域，以及在思维链任务中推理轨迹中的关键关键词。通过大量实验，GCPO 在文本到图像生成（https://huggingface.co/papers?q=text-to-image%20generation）和思维链推理（https://huggingface.co/papers?q=chain-of-thought%20reasoning）基准测试上均持续优于 GRPO（https://huggingface.co/papers?q=GRPO）和 DAPO（https://huggingface.co/papers?q=DAPO）基线，证明了其作为一种通用且可扩展的离散策略学习（https://huggingface.co/papers?q=discrete%20policy%20learning）优化策略的有效性。

查看 arXiv 页面（https://arxiv.org/abs/2605.29198）查看 PDF（https://arxiv.org/pdf/2605.29198）GitHub0（https://github.com/jacklishufan/gcpo）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.29198）

在你的智能体中获取此论文：

hf papers read 2605\.29198

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.29198 以将其链接到此页面。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.29198 以将其链接到此页面。

引用此论文的 Space0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.29198 以将其链接到此页面。

包含此论文的集合0

没有包含此论文的集合

请将此论文添加到集合（https://huggingface.co/new-collection）中以将其链接到此页面。

用于离散策略优化的引导对比Token信用分配

论文页面 - 用于离散策略优化的引导对比令牌信用分配

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的集合0

相似文章

GAGPO：广义优势分组策略优化

超越熵：通过对比策略优化的正确性感知优势塑造

ACPO：基于细粒度替代熵的自适应信用策略优化

通过反事实推理路径减少信用分配方差

GraphPO：面向推理模型的基于图策略优化

提交意见反馈