隐式压缩正则化:通过强化学习后训练中的内部短分布实现简洁推理

arXiv cs.AI 论文

摘要

本文提出了隐式压缩正则化(ICR),一种旨在解决大语言模型在强化学习后训练期间过度思考问题的方法,引导模型生成简洁且准确的推理轨迹。

arXiv:2605.07316v1 公告类型:新论文 摘要:带有可验证奖励的强化学习提升了大语言模型的推理能力,但往往会导致“过度思考”,即模型生成不必要的冗长推理轨迹。现有方法主要依赖于长度惩罚或提前退出策略;然而,前者可能会降低准确性并导致“思考不足”,而后者则假设推理轨迹的大部分可以安全截断。为了在没有这些局限性的情况下获得压缩信号,我们重新审视了现有压缩方法的训练动态。我们观察到,长度与准确性的相关性起初为负,但在压缩过程中持续增加,这表明较短的回答起初更可能是正确的,但随着策略向思考不足的方向发展,这种特性逐渐减弱。基于这一观察,我们正式定义了过度思考:负相关表示过度思考状态,而正相关表示思考不足状态。在过度思考时,最短的正确回答在期望上短于组平均回答长度,使它们成为已在同策略采样中存在的天然压缩目标。因此,我们提出了隐式压缩正则化(ICR),这是一种同策略正则化方法,其压缩信号来源于采样组中最短正确回答所诱导的虚拟短分布,引导策略趋向简洁且正确的轨迹。训练动态显示,ICR 在压缩过程中保持了更好的长度-准确性相关性,表明短回答依然与正确性保持高度一致,而不是偏离至思考不足。在三个推理骨干网络和多个数学及知识密集型基准上的实验表明,ICR 能够持续缩短回答长度,同时保持或提高准确性,实现了更优的准确性-长度帕累托前沿。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:16

# 隐式压缩正则化:通过强化学习后训练中的内部更短分布实现简洁推理

来源:https://arxiv.org/html/2605.07316
\\svgsetup

inkscapearea=page

Chen Wang1,2,∗Hexuan Deng2,3Yining Zhang2,4Yuchen Zhang2,5Jionghao Bai2,6Zhaochun Li2,7Ge Lan1,†Yue Wang2,†1南开大学软件学院2中关村 Academy3哈尔滨工业大学4中国科学院自动化研究所5华东师范大学6浙江大学7北京理工大学

###### 摘要

带有可验证奖励的强化学习(RLVR)提升了大语言模型(LLMs)的推理能力,但往往会导致“过度思考”(overthinking),即模型生成不必要地冗长的推理轨迹。现有方法主要依赖长度惩罚或早期退出策略;然而,前者可能会降低准确性并引发“思考不足”(underthinking),而后者则假设推理轨迹的大部分可以安全截断。为了在没有这些限制的情况下获得压缩信号,我们重新审视了现有压缩方法的训练动态。我们观察到,长度与准确性的相关性最初为负,但在压缩过程中持续增加,这表明较短的回答最初更可能是正确的,但随着策略向思考不足演变,这种特性逐渐消失。基于这一观察,我们形式化了过度思考:负相关性表示过度思考状态,而正相关性表示思考不足状态。在过度思考状态下,最短的正确回答在期望上短于组平均回答长度,使其成为已在策略 rollout 中存在的自然压缩目标。因此,我们提出了*隐式压缩正则化*(ICR),这是一种在策略上的正则化方法,其压缩信号来源于 rollout 组中最短正确回答所诱导的虚拟更短分布,引导策略走向简洁且正确的轨迹。训练动态显示,ICR 在压缩过程中保持了更好的长度-准确性相关性,表明短回答仍然更好地与正确性对齐,而不是漂流向思考不足。在三个推理骨干网络和多个数学及知识密集型基准上的实验表明,ICR 在保持或提高准确性的同时一致地缩短回答,实现了更强的准确性-长度帕累托前沿。

††脚注:∗Email:s\-wc25@bjzgca\.edu\.cn\.††脚注:†通讯作者 Ge Lan,email:lange@nankai\.edu\.cn\.††脚注:†通讯作者 Yue Wang,email:yuewang@bza\.edu\.cn\.## 1引言

大型语言模型(LLMs)通过扩展测试时计算进行长链式思维推理,实现了强大的推理性能\[29 (https://arxiv.org/html/2605.07316#bib.bib809),14 (https://arxiv.org/html/2605.07316#bib.bib249),27 (https://arxiv.org/html/2605.07316#bib.bib344)\]\. 带有可验证奖励的强化学习(RLVR)进一步优化了结果级正确性信号,使模型能够探索、反思和修正推理轨迹,从而增强了这一能力\[22 (https://arxiv.org/html/2605.07316#bib.bib723),14 (https://arxiv.org/html/2605.07316#bib.bib249),27 (https://arxiv.org/html/2605.07316#bib.bib344)\]\. 然而,更长的推理并不总是有益的\. 在强化学习后训练中,模型可能会生成冗余的中间步骤,重复自我反思,或对已经解决的问题分配过多的计算资源\[25 (https://arxiv.org/html/2605.07316#bib.bib810),1 (https://arxiv.org/html/2605.07316#bib.bib811)\]\. 这种现象通常被称为*过度思考*,增加了推理成本,甚至可能通过引入虚假的替代方案或不必要的自我修正而损害正确性\[5 (https://arxiv.org/html/2605.07316#bib.bib812),26 (https://arxiv.org/html/2605.07316#bib.bib813)\]\. 因此,一个重要的问题是如何在保留通过强化学习获得的推理能力的同时减少冗余推理\.

现有方法主要通过两种方式解决过度思考问题\. 第一类方法在 RL 奖励中加入长度惩罚\[27 (https://arxiv.org/html/2605.07316#bib.bib344),34 (https://arxiv.org/html/2605.07316#bib.bib726),33 (https://arxiv.org/html/2605.07316#bib.bib815),18 (https://arxiv.org/html/2605.07316#bib.bib814)\]\. 虽然这些方法能有效减少令牌使用,但它们使回答长度成为显式的优化目标,这可能会降低准确性并使策略倾向于思考不足\[21 (https://arxiv.org/html/2605.07316#bib.bib816),35 (https://arxiv.org/html/2605.07316#bib.bib741)\]\. 第二类方法使用早期退出或截断式策略,一旦估计到有充分的证据可用就停止推理\[10 (https://arxiv.org/html/2605.07316#bib.bib817),4 (https://arxiv.org/html/2605.07316#bib.bib818),6 (https://arxiv.org/html/2605.07316#bib.bib819)\]\. 然而,这些方法依赖于这样一个假设:推理轨迹的大部分是冗余的且可以安全丢弃,这在后期步骤与正确性紧密耦合的更难、信息密集的问题上可能会失效\. 这些局限性促使我们提出另一个问题:我们是否可以在策略训练期间,在没有长度惩罚或推理截断的情况下获得压缩信号?

受此动机驱动,我们重新审视了现有压缩方法的训练动态\. 通过调整长度系数,我们观察到更强的长度惩罚会使回答缩短得更快,但也加速了准确性的下降并恶化了准确性-长度的帕累托前沿\. 更重要的是,我们发现组内长度-准确性相关性最初为负,但在压缩过程中持续增加\. 这表明较短的回答最初更可能是正确的,暗示当前 rollout 分布中存在安全的压缩机会\. 然而,随着训练的推进,这种特性逐渐消失,意味着策略从去除冗余被推向了思考不足\. 这表明压缩本身并非 inherently 有害,但直接优化简短性会使策略利用比提高正确性更容易的优化方向\. 根据这一观察,我们通过正确性与回答长度之间的预期组内相关性形式化了过度思考:负值表示过度思考状态,而正值表示思考不足状态\. 在过度思考状态下,正确回答在期望上短于组平均值,因此最短的正确样本自然提供了已在策略 rollout 中存在的压缩目标\. 基于这一见解,我们提出了*隐式压缩正则化*(ICR),这是一种策略上的正则化方法,从这些最短的正确样本中提取压缩信号\. 不同于添加手工制作的长度依赖奖励或截断推理轨迹,ICR 使用 rollout 组内的最短正确回答来诱导一个虚拟的更短分布\. 该分布引导策略走向其自身 rollout 已发现的简洁且正确的轨迹\. 训练动态显示,ICR 在压缩过程中保持了更好的长度-准确性相关性,表明短回答仍然更好地与正确性对齐,而不是漂流向思考不足\. 在三个推理骨干网络和多个数学及知识密集型基准上的实验表明,ICR 在保持或提高准确性的同时一致地减少回答长度,实现了更强的准确性-长度帕累托前沿,并且在需要更强压缩时与轻微的长度惩罚兼容\.

我们的贡献总结如下:

- •我们揭示了压缩背后的关键训练动态:组内长度-准确性相关性最初为负但持续增加,显示短回答最初更可能是正确的,但随着压缩向思考不足移动,逐渐失去这一优势\.
- •我们通过正确性与回答长度之间的预期组内相关性形式化了过度思考:负值表示过度思考状态,而正值表示思考不足状态\.
- •我们提出了*隐式压缩正则化*(ICR),这是一种策略上的正则化方法,从 rollout 组内最短的正确样本中提取压缩信号,而不引入显式长度惩罚或截断推理轨迹\.
- •我们在多个骨干网络和基准上证明,ICR 实现了保持准确性的压缩,保持了更好的长度-准确性相关性,并产生了更强的准确性-长度帕累托前沿\. 我们进一步显示,当需要更强压缩时,ICR 与长度惩罚兼容\.

## 2相关工作

#### RL 后训练与 GRPO\.

带有可验证奖励的强化学习(RLVR)已成为提升 LLMs 推理能力的核心范式\. 给定查询$q$和采样回答$o$,RLVR 使用可验证奖励函数$R(q,o)$评估回答,并最大化

$J_{\text{RL}}(\theta)=\mathbb{E}_{q\sim P(Q),\,o\sim\pi_{\theta}}[R(q,o)]\.$\(1\)在现有的 RLVR 方法中,组相对策略优化(GRPO)广泛应用于推理 LLMs\. 对于每个查询$q$,GRPO 从$\pi_{\theta_{\text{old}}}$中采样一组$G$个回答$\{o_i\}_{i=1}^G$并优化

$J_{\text{GRPO}}(\theta)=\mathbb{E}_{q\sim P(Q),\,\{o_i\}_{i=1}^G\sim\pi_{\theta_{\text{old}}}}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{\|o_i\|}\sum_{t=1}^{\|o_i\|}\min\!\Big(r_{i,t}(\theta)A_i,\,\mathrm{clip}\!\big(r_{i,t}(\theta),1-\epsilon_{\text{low}},1+\epsilon_{\text{high}}\big)A_i\Big)\right],\)$\(2\)其中$\epsilon_{\text{low}}=\epsilon_{\text{high}}=0.2$且

$r_{i,t}(\theta)=\frac{\pi_{\theta}(o_{i,t}\mid q,o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t}\mid q,o_{i,<t})},\quad A_i=\frac{R_i-\mathrm{mean}(\{R_j\}_{j=1}^G)}{\mathrm{std}(\{R_j\}_{j=1}^G)}.$\(3\)组归一化的优势减少了方差并稳定了策略优化\. 然而,仅优化最终正确性通常会鼓励长的推理轨迹,导致*过度思考*,其中模型生成冗余的反思、重复的验证步骤或不必要详细的推导\[25 (https://arxiv.org/html/2605.07316#bib.bib810),1 (https://arxiv.org/html/2605.07316#bib.bib811),5 (https://arxiv.org/html/2605.07316#bib.bib812),26 (https://arxiv.org/html/2605.07316#bib.bib813)\]\. 这种行为增加了推理成本,甚至可能在困难或有噪声的问题上损害正确性\[13 (https://arxiv.org/html/2605.07316#bib.bib820),11 (https://arxiv.org/html/2605.07316#bib.bib821),9 (https://arxiv.org/html/2605.07316#bib.bib822)\]\.

#### 长度惩罚\.

主要研究方向之一是通过在 RL 奖励中添加长度依赖项来减轻过度思考:

$R_i=R_i^{\text{corr}}+\lambda R_i^{\text{len}},\)$\(4\)其中$R_i^{\text{corr}}$是正确性奖励,$R_i^{\text{len}}$是长度奖励,$\lambda$控制压缩强度\. 由于 GRPO 在每个 rollout 组内归一化标量奖励,长度项直接改变相对优势并参与策略优化\. 现有的长度惩罚可以总结如下:

- •LP-F\.固定参考惩罚使用预定义的长度边界或预算来奖励较短的回答,例如带有软长度整形的 DAPO\[34 (https://arxiv.org/html/2605.07316#bib.bib726)\]\.
- •LP-G\.组内惩罚在当前 rollout 组内归一化回答长度,并相对于其他回答偏好较短的样本,如 Kimi-k1.5 等\[27 (https://arxiv.org/html/2605.07316#bib.bib344),2 (https://arxiv.org/html/2605.07316#bib.bib823),19 (https://arxiv.org/html/2605.07316#bib.bib824),20 (https://arxiv.org/html/2605.07316#bib.bib825),16 (https://arxiv.org/html/2605.07316#bib.bib826),15 (https://arxiv.org/html/2605.07316#bib.bib827),24 (https://arxiv.org/html/2605.07316#bib.bib828)\]\.

虽然这些方法可以有效减少令牌使用,但它们明确地将回答长度与奖励优化耦合\. 这使得训练对系数调整敏感,并可能导致策略转向表面化的缩短而非真正的推理改进,从而引起思考不足或准确性下降\[18 (https://arxiv.org/html/2605.07316#bib.bib814),21 (https://arxiv.org/html/2605.07316#bib.bib816),35 (https://arxiv.org/html/2605.07316#bib.bib741)\]\.

参见标题图 1:数学推理基准上不同最大回答长度下的准确性\. 在 Qwen3-4B 和 Qwen3-8B 上,准确性随允许的推理长度单调增加,表明截断可能会损害推理质量\.

#### 早期退出与截断\.

另一类工作通过构建、选择或截断推理轨迹来减少过度思考\. 有些方法在思考和无思考模式之间路由查询\[36 (https://arxiv.org/html/2605.07316#bib.bib829),30 (https://arxiv.org/html/2605.07316#bib.bib830)\]\. 早期退出和截断式方法则通过达到固定预算或估计到有充分证据可用时停止生成来缩短推理,使用置信度、验证或熵等信号\[10 (https://arxiv.org/html/2605.07316#bib.bib817),4 (https://arxiv.org/html/2605.07316#bib.bib818),6 (https://arxiv.org/html/2605.07316#bib.bib819)\]\. 虽然这些方法可以减少推理成本,但它们依赖于后期推理步骤大多冗余的假设\. 如图 1 (https://arxiv.org/html/2605.07316#S2.F1) 所示,在困难的数学基准上,推理准确性随允许的回答长度单调增加,表明截断的步骤通常仍然包含有用的推理计算\. 因此,当后期步骤与正确性紧密耦合时,早期停止可能会损害性能\. 相比之下,ICR 不会通过硬截断或早期退出丢弃推理轨迹,而是从策略 rollout 组中已存在的简洁正确样本中提取压缩信号\.

## 3方法

我们首先提出一个启发我们方法的经验观察\. 尽管长度惩罚被广泛用于减轻 RL 后训练中的过度思考,但我们发现它不可避免地会导致性能损失\. 这一观察揭示了现有奖励整形策略的局限性,并激发了本节提出的方法\.

参见标题

参见标题

参见标题

\(\(a\)\)LP-F \(l_{\min}=4096,l_{\max}=8192\)\.

参见标题

参见标题

参见标题

\(\(b\)\)LP-G \(Kimi-k1.5\)\.

图 2:两种长度奖励设计的系数调整结果,$\lambda\in\{0.5,1,2\}$\. 在两种情况下,增加长度系数都会使回答缩短得更快,但也加速了准确性的下降\. 准确性-长度相关性最初为负并逐渐趋近于零,表明较短回答与正确性之间的初始兼容性...

相似文章

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。

通过推理空间压缩的结构化理由蒸馏

arXiv cs.CL

本文提出了 D-RPC,一种通过将推理路径压缩为可复用库,从而将大型语言模型的推理能力蒸馏给较小模型的方法,该方法在数学和常识基准测试中实现了更好的性能和一致性。