ESPO:早期停止近端策略优化
摘要
ESPO为强化学习引入了一种早期停止机制,能够检测并终止大语言模型中失败的推理轨迹,从而提升数学推理性能,同时减少超过20%的计算量。
查看缓存全文
缓存时间: 2026/06/02 03:24
论文页面 - ESPO:早期停止近端策略优化
来源:https://huggingface.co/papers/2605.29860 作者:
,
,
,
,
,
,
,
,
,
摘要
ESPO 通过早期检测并终止失败轨迹来改进大型语言模型中的数学推理能力,从而提升性能并减少计算浪费。
当大型语言模型在强化学习(https://huggingface.co/papers?q=reinforcement%20learning)中于轨迹早期出现错误推理步骤时,标准算法会强制其继续生成直至最大步长,将计算资源浪费在从未获得正奖励的令牌上,并用失败后的噪声污染优势估计。我们提出 ESPO(早期停止近端策略优化(https://huggingface.co/papers?q=Proximal%20Policy%20Optimization)),它能在生成过程中实时检测轨迹失败(https://huggingface.co/papers?q=trajectory%20failure)并提前终止生成。在每个生成步骤中,ESPO 仅利用采样时已计算的 logits(https://huggingface.co/papers?q=logits)计算替代遗憾(https://huggingface.co/papers?q=surrogate%20regret),并在平滑累计遗憾显著超过其估计值时终止生成。截断后的轨迹被视为带有终端奖励的吸收失败状态(https://huggingface.co/papers?q=absorbing%20failure%20states),从而将负的时序差分(TD)误差集中在检测到的失败步骤附近,无需额外奖励模型或人工标注。在基于 DeepSeek-R1-Distill-Qwen-7B 训练用于数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)的任务中,ESPO 在 AIME~2024(46.28% vs. 45.25%)、AMC~2023(85.83% vs. 82.94%)和 MATH-500(87.42% vs. 85.43%)上均超越 PPO,同时累计节省超过 20% 的生成令牌(https://huggingface.co/papers?q=rollout%20tokens)。
查看 arXiv 页面(https://arxiv.org/abs/2605.29860)查看 PDF(https://arxiv.org/pdf/2605.29860)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29860)
在您的代理中获取此论文:
hf papers read 2605\.29860
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
暂无模型关联此论文
请在模型的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。
引用此论文的 Spaces0
暂无 Space 关联此论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。
包含此论文的合集1
相似文章
LambdaPO: 面向推理语言模型的Lambda风格策略优化
引入LambdaPO,一种新颖的强化学习框架,它通过将优势估计分解为成对偏好比较并添加语义密度奖励来改进GRPO,从而在数学推理任务上取得了更好的性能。
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。
SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索
研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。
CEPO:基于对比证据策略优化的RLVR自我蒸馏
CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。
TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。