超越LLM强化学习中的统一令牌级信任区域
摘要
本文介绍了CPPO,这是一种通过使用位置加权阈值和累积前缀预算来改进基于可验证奖励的LLM强化学习方法,旨在解决统一令牌级信任区域的局限性。
查看缓存全文
缓存时间: 2026/06/11 13:42
论文页面 - 超越LLM强化学习中的统一Token级信任区域
来源:https://huggingface.co/papers/2606.10968
摘要
CPPO通过引入位置加权阈值和累积前缀预算来更好地处理自回归生成挑战,从而解决了使用可验证奖励的强化学习中的局限性。
使用可验证奖励的强化学习(RLVR)已成为提升LLM推理能力的标准方法。然而,现有的PPO风格信任区域机制 (https://huggingface.co/papers?q=PPO-style%20trust-region%20mechanisms) 仍然保持位置无关,对所有token独立施加统一阈值。这种逐点处理方式在两方面与自回归生成 (https://huggingface.co/papers?q=autoregressive%20generation) 相冲突。首先,统一阈值忽略了自回归的不对称性。早期阶段的偏差会产生累积的序列级漂移,导致静态阈值对早期发散的抑制不足,同时又过度约束了后期阶段的探索。其次,孤立地评估token级发散忽略了累积前缀漂移,使得无论条件历史已偏离rollout策略多远,都给予相同的发散容限。为了解决这一局限,我们提出了CPPO(累积前缀散度策略优化),这是一种token级掩码 (https://huggingface.co/papers?q=token-level%20masking) 规则,通过两种耦合机制使更新与有限视野策略改进边界 (https://huggingface.co/papers?q=policy-improvement%20bound) 对齐。首先,位置加权阈值 (https://huggingface.co/papers?q=position-weighted%20threshold) 对较早位置施加更严格的限制,因为这些位置的影响持续更久,而对后期token则放松约束。其次,累积前缀预算 (https://huggingface.co/papers?q=cumulative%20prefix%20budget) 跟踪历史偏差,动态限制进一步的token级偏差,以防止沿前缀产生累积错误。实验表明,CPPO在不同模型规模上增强了训练稳定性,并显著提高了推理准确性。
查看arXiv页面 (https://arxiv.org/abs/2606.10968)查看PDF (https://arxiv.org/pdf/2606.10968)项目页面 (https://hunyuan-cppo.github.io/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.10968)
在您的代理中获取此论文:
hf papers read 2606\.10968
没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型关联此论文
请在模型README.md中引用 arxiv.org/abs/2606.10968 以从此页面链接。
引用本文的数据集0
没有数据集关联此论文
请在数据集README.md中引用 arxiv.org/abs/2606.10968 以从此页面链接。
引用本文的Spaces0
没有Space关联此论文
请在Space README.md中引用 arxiv.org/abs/2606.10968 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
重新思考LLM强化学习中的散度正则化
本文介绍了DRPO,它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码,通过提供信任区域边界之外的连续梯度校正,提高了LLM强化学习的稳定性和效率。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。
信任域逆强化学习:利用局部策略更新进行显式对偶上升
本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。
Trust Region On-Policy Distillation
本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。