SLAT: 面向高效CoT推理的片段级自适应修剪

arXiv cs.AI 2026/06/01 04:00 论文

摘要

SLAT是一种用于思维链推理的片段级自适应修剪框架，通过抑制冗余片段将推理长度减少50％，同时保持准确性。

arXiv:2605.30832v1 公告类型: 新摘要: 大型推理模型的最新进展通过强化学习(RL)显著提升了思维链(CoT)能力。然而，生成的推理链经常存在结构冗余（即\emph{过度思考}），这增加了计算开销却没有提高答案的正确性。现有的缓解策略通常依赖于令牌均匀的长度惩罚，这种惩罚对更短的输出施加了粗糙、与片段无关的压力，并可能在抑制冗余的同时无意中也抑制了有用的推理。为了解决这个问题，我们证明了低效集中在具有低边际效用的高概率片段中。我们在正确性-长度权衡目标下推导出片段次优性的理论表征，并提出了\textsc{SLAT}（片段级自适应修剪），这是一个基于该标准选择性抑制冗余片段的RL框架。在标准基准上的实证结果表明，\textsc{SLAT}建立了优越的准确率-效率帕累托前沿，相对于未压缩的基线将推理长度减少了$50\%$，同时保持了有竞争力的准确率。总的来说，我们的结果表明，基于理论的、感知片段的修剪是大型语言模型中高效CoT推理的一个有前途的方向。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:25

# SLAT：面向高效思维链推理的片段级自适应精简
来源：https://arxiv.org/abs/2605.30832
查看 PDF (https://arxiv.org/pdf/2605.30832)

> **摘要：** 近期大型推理模型通过强化学习显著提升了思维链能力。然而，生成的推理链经常存在结构冗余（即所谓的*过度思考*），在未提高答案正确性的情况下引入了高昂的计算开销。现有的缓解策略通常依赖标记级统一长度惩罚，这种惩罚对缩短输出施加了粗粒度、与片段无关的压力，可能在不经意间抑制了有用的推理而非仅仅去除冗余。为解决此问题，我们证明了低效性集中在具有低边际效用的高概率片段上。我们在正确性-长度权衡目标下推导了片段次优性的理论刻画，并提出了\textsc{SLAT}（Segment-Level Adaptive Trimming，片段级自适应精简）——一种基于该准则选择性抑制冗余片段的强化学习框架。在标准基准上的实验结果表明，\textsc{SLAT}建立了优越的准确率-效率帕累托前沿，与未压缩的基线相比，推理长度减少了$50\%$，同时保持了有竞争力的准确率。总体而言，我们的结果表明，基于理论、面向片段的精简是大语言模型实现高效思维链推理的一个有前景的方向。

## 提交历史

来自：Jian Yao \[查看邮件 (https://arxiv.org/show-email/1ed6af14/2605.30832)\] **\[v1\]** 2026年5月29日星期五 04:37:49 UTC（2,449 KB）

SLAT: 面向高效CoT推理的片段级自适应修剪

相似文章

ACIL: 用于上下文学习的自动Chain-of-Thought

面向高效可控LLM推理的代理式思维链引导

基于代理上下文的链式思维微调长上下文推理

更少语言、更少Token：高效统一逻辑跨语言链式思维推理框架

置信度感知对齐让推理型大语言模型更加可靠

提交意见反馈