ESPO：早期停止近端策略优化

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

ESPO为强化学习引入了一种早期停止机制，能够检测并终止大语言模型中失败的推理轨迹，从而提升数学推理性能，同时减少超过20%的计算量。

当大型语言模型在强化学习下，在轨迹早期就出现了错误的推理步骤时，标准算法会强制其继续生成直至最大步长，从而在永远不会获得正奖励的令牌上耗费计算资源，并用故障后的噪声污染优势估计。我们提出ESPO（早期停止近端策略优化），该方法能实时检测轨迹失败并提前终止生成。在每个生成步骤中，ESPO仅利用采样时已计算出的logits来计算一个代理遗憾（surrogate regret），并在平滑后的累积遗憾显著超过其估计值时终止。被截断的轨迹视为具有终止奖励的吸收失败状态，从而将负的时序差分误差集中在检测到的故障步骤附近，无需额外的奖励模型或人工标注。在基于DeepSeek-R1-Distill-Qwen-7B训练的数学推理任务上，ESPO在AIME 2024（46.28%对比45.25%）、AMC 2023（85.83%对比82.94%）和MATH-500（87.42%对比85.43%）上均超越了PPO，同时累计节省了超过20%的生成令牌。

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:24

论文页面 - ESPO：早期停止近端策略优化

来源：https://huggingface.co/papers/2605.29860 作者：

摘要

ESPO 通过早期检测并终止失败轨迹来改进大型语言模型中的数学推理能力，从而提升性能并减少计算浪费。

当大型语言模型在强化学习（https://huggingface.co/papers?q=reinforcement%20learning）中于轨迹早期出现错误推理步骤时，标准算法会强制其继续生成直至最大步长，将计算资源浪费在从未获得正奖励的令牌上，并用失败后的噪声污染优势估计。我们提出 ESPO（早期停止近端策略优化（https://huggingface.co/papers?q=Proximal%20Policy%20Optimization）），它能在生成过程中实时检测轨迹失败（https://huggingface.co/papers?q=trajectory%20failure）并提前终止生成。在每个生成步骤中，ESPO 仅利用采样时已计算的 logits（https://huggingface.co/papers?q=logits）计算替代遗憾（https://huggingface.co/papers?q=surrogate%20regret），并在平滑累计遗憾显著超过其估计值时终止生成。截断后的轨迹被视为带有终端奖励的吸收失败状态（https://huggingface.co/papers?q=absorbing%20failure%20states），从而将负的时序差分（TD）误差集中在检测到的失败步骤附近，无需额外奖励模型或人工标注。在基于 DeepSeek-R1-Distill-Qwen-7B 训练用于数学推理（https://huggingface.co/papers?q=mathematical%20reasoning）的任务中，ESPO 在 AIME~2024（46.28% vs. 45.25%）、AMC~2023（85.83% vs. 82.94%）和 MATH-500（87.42% vs. 85.43%）上均超越 PPO，同时累计节省超过 20% 的生成令牌（https://huggingface.co/papers?q=rollout%20tokens）。

查看 arXiv 页面（https://arxiv.org/abs/2605.29860）查看 PDF（https://arxiv.org/pdf/2605.29860）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.29860）

在您的代理中获取此论文：

hf papers read 2605\.29860

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型关联此论文

请在模型的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2605.29860 以便从此页面链接。

ESPO：早期停止近端策略优化

论文页面 - ESPO：早期停止近端策略优化

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的合集1

相似文章

超越轨迹模仿：面向大模型推理的Strategy-Guided Policy Optimization

LambdaPO: 面向推理语言模型的Lambda风格策略优化

SocraticPO：通过交互式指导的策略优化

基于梯度外推的策略优化

SPS：通过概率挤压引导实现大语言模型强化学习中的更优探索

提交意见反馈