SLAT: 面向高效CoT推理的片段级自适应修剪

arXiv cs.AI 论文

摘要

SLAT是一种用于思维链推理的片段级自适应修剪框架,通过抑制冗余片段将推理长度减少50%,同时保持准确性。

arXiv:2605.30832v1 公告类型: 新 摘要: 大型推理模型的最新进展通过强化学习(RL)显著提升了思维链(CoT)能力。然而,生成的推理链经常存在结构冗余(即\emph{过度思考}),这增加了计算开销却没有提高答案的正确性。现有的缓解策略通常依赖于令牌均匀的长度惩罚,这种惩罚对更短的输出施加了粗糙、与片段无关的压力,并可能在抑制冗余的同时无意中也抑制了有用的推理。为了解决这个问题,我们证明了低效集中在具有低边际效用的高概率片段中。我们在正确性-长度权衡目标下推导出片段次优性的理论表征,并提出了\textsc{SLAT}(片段级自适应修剪),这是一个基于该标准选择性抑制冗余片段的RL框架。在标准基准上的实证结果表明,\textsc{SLAT}建立了优越的准确率-效率帕累托前沿,相对于未压缩的基线将推理长度减少了$50\%$,同时保持了有竞争力的准确率。总的来说,我们的结果表明,基于理论的、感知片段的修剪是大型语言模型中高效CoT推理的一个有前途的方向。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:25

# SLAT:面向高效思维链推理的片段级自适应精简
来源:https://arxiv.org/abs/2605.30832
查看 PDF (https://arxiv.org/pdf/2605.30832)

> **摘要:** 近期大型推理模型通过强化学习显著提升了思维链能力。然而,生成的推理链经常存在结构冗余(即所谓的*过度思考*),在未提高答案正确性的情况下引入了高昂的计算开销。现有的缓解策略通常依赖标记级统一长度惩罚,这种惩罚对缩短输出施加了粗粒度、与片段无关的压力,可能在不经意间抑制了有用的推理而非仅仅去除冗余。为解决此问题,我们证明了低效性集中在具有低边际效用的高概率片段上。我们在正确性-长度权衡目标下推导了片段次优性的理论刻画,并提出了\textsc{SLAT}(Segment-Level Adaptive Trimming,片段级自适应精简)——一种基于该准则选择性抑制冗余片段的强化学习框架。在标准基准上的实验结果表明,\textsc{SLAT}建立了优越的准确率-效率帕累托前沿,与未压缩的基线相比,推理长度减少了$50\%$,同时保持了有竞争力的准确率。总体而言,我们的结果表明,基于理论、面向片段的精简是大语言模型实现高效思维链推理的一个有前景的方向。

## 提交历史

来自:Jian Yao \[查看邮件 (https://arxiv.org/show-email/1ed6af14/2605.30832)\] **\[v1\]** 2026年5月29日星期五 04:37:49 UTC(2,449 KB)

相似文章

面向高效可控LLM推理的代理式思维链引导

Hugging Face Daily Papers

ACTS(代理式思维链引导)将LLM推理控制形式化为马尔可夫决策过程,其中控制器代理在推理过程中使用推理策略和引导短语自适应地引导冻结的推理器。该方法在显著节省token的同时实现了与完全思考模型相当的准确率,支持可控的准确率-效率权衡。

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。

置信度感知对齐让推理型大语言模型更加可靠

arXiv cs.AI

本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。