ESPO:早期停止近端策略优化

Hugging Face Daily Papers 论文

摘要

ESPO为强化学习引入了一种早期停止机制,能够检测并终止大语言模型中失败的推理轨迹,从而提升数学推理性能,同时减少超过20%的计算量。

当大型语言模型在强化学习下,在轨迹早期就出现了错误的推理步骤时,标准算法会强制其继续生成直至最大步长,从而在永远不会获得正奖励的令牌上耗费计算资源,并用故障后的噪声污染优势估计。我们提出ESPO(早期停止近端策略优化),该方法能实时检测轨迹失败并提前终止生成。在每个生成步骤中,ESPO仅利用采样时已计算出的logits来计算一个代理遗憾(surrogate regret),并在平滑后的累积遗憾显著超过其估计值时终止。被截断的轨迹视为具有终止奖励的吸收失败状态,从而将负的时序差分误差集中在检测到的故障步骤附近,无需额外的奖励模型或人工标注。在基于DeepSeek-R1-Distill-Qwen-7B训练的数学推理任务上,ESPO在AIME 2024(46.28%对比45.25%)、AMC 2023(85.83%对比82.94%)和MATH-500(87.42%对比85.43%)上均超越了PPO,同时累计节省了超过20%的生成令牌。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - ESPO:早期停止近端策略优化

来源:https://huggingface.co/papers/2605.29860 作者:

,

,

,

,

,

,

,

,

,

摘要

ESPO 通过早期检测并终止失败轨迹来改进大型语言模型中的数学推理能力,从而提升性能并减少计算浪费。

当大型语言模型在强化学习(https://huggingface.co/papers?q=reinforcement%20learning)中于轨迹早期出现错误推理步骤时,标准算法会强制其继续生成直至最大步长,将计算资源浪费在从未获得正奖励的令牌上,并用失败后的噪声污染优势估计。我们提出 ESPO(早期停止近端策略优化(https://huggingface.co/papers?q=Proximal%20Policy%20Optimization)),它能在生成过程中实时检测轨迹失败(https://huggingface.co/papers?q=trajectory%20failure)并提前终止生成。在每个生成步骤中,ESPO 仅利用采样时已计算的 logits(https://huggingface.co/papers?q=logits)计算替代遗憾(https://huggingface.co/papers?q=surrogate%20regret),并在平滑累计遗憾显著超过其估计值时终止生成。截断后的轨迹被视为带有终端奖励的吸收失败状态(https://huggingface.co/papers?q=absorbing%20failure%20states),从而将负的时序差分(TD)误差集中在检测到的失败步骤附近,无需额外奖励模型或人工标注。在基于 DeepSeek-R1-Distill-Qwen-7B 训练用于数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)的任务中,ESPO 在 AIME~2024(46.28% vs. 45.25%)、AMC~2023(85.83% vs. 82.94%)和 MATH-500(87.42% vs. 85.43%)上均超越 PPO,同时累计节省超过 20% 的生成令牌(https://huggingface.co/papers?q=rollout%20tokens)。

查看 arXiv 页面(https://arxiv.org/abs/2605.29860)查看 PDF(https://arxiv.org/pdf/2605.29860)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29860)

在您的代理中获取此论文:

hf papers read 2605\.29860

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型关联此论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。

包含此论文的合集1

相似文章

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL

研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。

CEPO:基于对比证据策略优化的RLVR自我蒸馏

Hugging Face Daily Papers

CEPO通过使用来自拒绝轨迹的对比信号来区分关键推理步骤和填充令牌,从而改进了基于可验证奖励的强化学习,在多模态数学推理基准上相比GRPO获得了更高的准确率。