超越LLM强化学习中的统一令牌级信任区域

Hugging Face Daily Papers 2026/06/09 00:00 论文

reinforcement-learning llm trust-region policy-optimization reasoning position-weighted

摘要

本文介绍了CPPO，这是一种通过使用位置加权阈值和累积前缀预算来改进基于可验证奖励的LLM强化学习方法，旨在解决统一令牌级信任区域的局限性。

基于可验证奖励的强化学习（RLVR）已成为提升LLM推理能力的标准方法。然而，现有的PPO式信任区域机制仍与位置无关，对所有令牌独立地施加统一阈值。这种逐点处理方式在两个方面与自回归生成相冲突。首先，统一阈值忽略了自回归不对称性。早期偏差会产生累积的序列级漂移，导致静态阈值对早期发散约束不足，而对后期探索过度限制。其次，孤立地评估令牌级发散忽略了累积前缀漂移，无论条件历史已经偏离推出策略多远，都给予相同的发散容差。为解决这一局限性，我们提出了CPPO（累积前缀发散策略优化），这是一种令牌级掩码规则，通过两个耦合机制使更新与有限时域策略改进界对齐。首先，位置加权阈值对影响持续更长的早期位置施加更严格的限制，放松对后期令牌的约束。其次，累积前缀预算跟踪历史偏差，动态限制进一步的令牌级偏差，以防止沿着前缀累积错误。实验表明，CPPO增强了训练稳定性，并在各种模型规模上显著提高了推理准确性。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:42

论文页面 - 超越LLM强化学习中的统一Token级信任区域

来源：https://huggingface.co/papers/2606.10968

摘要

CPPO通过引入位置加权阈值和累积前缀预算来更好地处理自回归生成挑战，从而解决了使用可验证奖励的强化学习中的局限性。

使用可验证奖励的强化学习（RLVR）已成为提升LLM推理能力的标准方法。然而，现有的PPO风格信任区域机制 (https://huggingface.co/papers?q=PPO-style%20trust-region%20mechanisms) 仍然保持位置无关，对所有token独立施加统一阈值。这种逐点处理方式在两方面与自回归生成 (https://huggingface.co/papers?q=autoregressive%20generation) 相冲突。首先，统一阈值忽略了自回归的不对称性。早期阶段的偏差会产生累积的序列级漂移，导致静态阈值对早期发散的抑制不足，同时又过度约束了后期阶段的探索。其次，孤立地评估token级发散忽略了累积前缀漂移，使得无论条件历史已偏离rollout策略多远，都给予相同的发散容限。为了解决这一局限，我们提出了CPPO（累积前缀散度策略优化），这是一种token级掩码 (https://huggingface.co/papers?q=token-level%20masking) 规则，通过两种耦合机制使更新与有限视野策略改进边界 (https://huggingface.co/papers?q=policy-improvement%20bound) 对齐。首先，位置加权阈值 (https://huggingface.co/papers?q=position-weighted%20threshold) 对较早位置施加更严格的限制，因为这些位置的影响持续更久，而对后期token则放松约束。其次，累积前缀预算 (https://huggingface.co/papers?q=cumulative%20prefix%20budget) 跟踪历史偏差，动态限制进一步的token级偏差，以防止沿前缀产生累积错误。实验表明，CPPO在不同模型规模上增强了训练稳定性，并显著提高了推理准确性。

查看arXiv页面 (https://arxiv.org/abs/2606.10968)查看PDF (https://arxiv.org/pdf/2606.10968)项目页面 (https://hunyuan-cppo.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.10968)

在您的代理中获取此论文：

hf papers read 2606\.10968

没有最新CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型关联此论文

请在模型README.md中引用 arxiv.org/abs/2606.10968 以从此页面链接。

引用本文的数据集0

没有数据集关联此论文

请在数据集README.md中引用 arxiv.org/abs/2606.10968 以从此页面链接。

引用本文的Spaces0

没有Space关联此论文

请在Space README.md中引用 arxiv.org/abs/2606.10968 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

超越LLM强化学习中的统一令牌级信任区域

论文页面 - 超越LLM强化学习中的统一Token级信任区域

摘要

引用本文的模型0

引用本文的数据集0

引用本文的Spaces0

包含此论文的收藏集0

相似文章

重新思考LLM强化学习中的散度正则化

TeamTR：多智能体LLM协调的信任域微调

TEMPO：通过模式分离策略优化实现时间强制，用于可信的大语言模型回测

信任域逆强化学习：利用局部策略更新进行显式对偶上升

Trust Region On-Policy Distillation

提交意见反馈