SuperThoughts:叠加态中的推理令牌
摘要
SuperThoughts 将连续的思维链令牌压缩为潜在表示,并每步解码两个令牌,在数学推理基准上实现了约20-30%的思维链长度缩减,准确率损失极小,同时将推理吞吐量提高了一倍。
arXiv:2606.13862v1 公告类型:新
摘要:长思维链(CoT)推理能提升大语言模型的问题解决能力,但由于需要顺序生成令牌,计算成本高昂。尽管近期研究探索在连续潜在空间中进行推理以绕过离散令牌生成,但由于缺乏监督信号,这些方法通常面临训练稳定性问题,且难以扩展到复杂的长周期任务。我们提出了 SuperThoughts,它将连续的 CoT 令牌对压缩为单个潜在表示,并通过轻量级的多令牌预测(MTP)模块每步解码两个令牌。这既保留了训练时的离散令牌监督,又在推理时使吞吐量翻倍。我们对 Qwen2.5-Math-1.5B-Instruct、Qwen2.5-Math-7B-Instruct、Qwen2.5-Math-14B-Instruct 进行了微调,并在 MATH500、AMC、OlympiadBench 和 GPQA-Diamond 上进行了评估。通过基于置信度的自适应机制,在不确定时回退到标准解码,SuperThoughts 实现了约20-30%的 CoT 长度缩减,同时保持准确率,仅略有下降(在大多数任务上准确率下降1-2个百分点)。
查看缓存全文
缓存时间: 2026/06/15 09:08
# SuperThoughts: 叠加态中的推理令牌
来源: https://arxiv.org/html/2606.13862
Zheyang Xiong^w,^m, Shivam Garg^{*m}, Max Yu^{*i}, Vaishnavi Shrivastava^m, Haoyu Zhao^{p,m}, Anastasios Kyrillidis^r, Dimitris Papailiopoulos^{w,m}
^w威斯康星大学麦迪逊分校, ^m微软研究院, ^i独立研究者, ^p普林斯顿大学, ^r莱斯大学
###### 摘要
长链思维(CoT)推理提升了LLM的问题解决能力,但由于顺序生成令牌,计算成本很高。虽然近期有工作在连续潜在空间中进行推理以绕过离散令牌生成,但它们常常面临训练稳定性问题,并且由于缺乏监督信号,难以扩展到复杂的长期任务。我们提出了 SuperThoughts,它将连续的 CoT 令牌对压缩成单个潜在表示,并通过轻量级的多令牌预测(MTP)模块每步解码两个令牌。这在训练时保留了离散令牌监督,同时在推理时使吞吐量翻倍。我们在 Qwen2.5-Math-1.5B-Instruct、Qwen2.5-Math-7B-Instruct、Qwen2.5-Math-14B-Instruct 上进行了微调,并在 MATH500、AMC、OlympiadBench 和 GPQA-Diamond 上进行了评估。通过一种基于置信度的自适应机制,在不确定时回退到标准解码,SuperThoughts 实现了约 20-30% 的 CoT 长度缩减,同时准确性保持最小下降(大多数任务上准确率下降 1-2 个百分点)。
请参阅标题
图 1: SuperThoughts 与 HAMburger (Liu and Zhang, 2025 (https://arxiv.org/html/2606.13862#bib.bib39)) 在训练后的 Qwen2.5-1.5B-Math-Instruct 上的对比。
00脚注: * 同等贡献。 邮箱: 。 通信: 。
## 1 引言
大型语言模型(LLM)通过生成清晰的思维链(CoT)序列来解决复杂问题,然后才给出最终答案 (Wei et al., 2022 (https://arxiv.org/html/2606.13862#bib.bib9))。我们可以将每个 CoT 令牌视为一个计算单元(一次前向传播),更长的链意味着在到达答案之前花费更多的计算量。近期的成功案例,如 OpenAI o1 (Jaech et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib11)) 和 DeepSeek-R1 (Guo et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib12)),表明这种额外的测试时计算显著提升了性能 (Snell et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib13))。这引出一个问题:*为什么模型必须在离散令牌空间中推理?*
语言模型的词汇表是一个有限的、人类可解释的符号集,而模型的内部表示则存在于一个连续的、高维的向量空间中。如果推理可以直接在这个更丰富的潜在空间中进行,模型可能每一步都能表达更多的中间计算,从而用更少的步骤达到相同的质量,或者在相同计算量下获得更好的质量。最近的研究探索了*潜在推理*,旨在绕过离散令牌的生成。Hao et al. (2024 (https://arxiv.org/html/2606.13862#bib.bib16)) 提出了 COCONUT,训练模型使用从未被解码为语言的连续潜在思维进行推理。Cheng 和 Van Durme (2024 (https://arxiv.org/html/2606.13862#bib.bib19)) 通过知识蒸馏将思维链压缩成密集表示。其他方法探索了交错使用潜在令牌和离散令牌的混合方案 (Su et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib25); Shen et al., 2025b (https://arxiv.org/html/2606.13862#bib.bib21); Zhang et al., 2025a (https://arxiv.org/html/2606.13862#bib.bib24))。然而,这些方法面临一个关键挑战:*缺乏中间监督*。标准的 CoT 训练在每一个推理步骤都受益于令牌级别的交叉熵损失,在整个推理链中提供密集的梯度信号。当推理发生在无约束的潜在空间时,这种监督会消失,模型必须学习生成有用的中间表示,而没有任何关于这些表示应编码什么的直接反馈。这使得训练不稳定,且容易发生表示漂移,尤其是在长期任务中,错误会在多个潜在步骤中累积。因此,先前的潜在推理方法主要在简单设置中展示,并且往往难以在具有挑战性的基准上匹配显式 CoT 的性能。*我们能否训练模型在更丰富的叠加空间中进行推理,同时保持中间监督?*
请参阅标题
图 2: 三种生成策略生成令牌 "b" 到 "e" 的对比。 (a) 标准:每次前向传播消耗一个令牌并预测一个令牌,需要 4 步。 (b) 标准 + MTP:一个多令牌预测头每步预测一个额外令牌,但输入仍然是单个令牌,仍然需要 4 步。 (c) SuperThoughts:令牌对被融合成叠加嵌入作为输入,并通过 MTP 每步解码两个令牌,将所需的前向传播次数减半为 2 步。绿色表示主模型预测;蓝色表示 MTP 预测。
在这项工作中,我们探索了实现这一目标的自然的第一步。我们提出 SuperThoughts,一种在推理过程中将连续的 CoT 令牌*对*压缩成单个潜在表示的框架。在每一步,模型消耗两个令牌的叠加嵌入,并预测两个离散令牌:一个来自主模型主干,一个来自轻量级的多令牌预测(MTP)模块 (Gloeckle et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib5); Liu et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib7))。这使得所需的前向传播次数减半,同时在训练过程中保持令牌级别的交叉熵监督。我们的主要贡献如下:
1. 1. 我们提出了 SuperThoughts 架构,该架构通过 Compressor 将令牌对压缩成单个表示,并使用 Main Module 和 MTP Module 每步解码两个令牌。
2. 2. 我们开发了一个两阶段训练协议,首先通过蒸馏对齐压缩后的潜在空间 (Berton et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib38)),然后使用离散令牌监督端到端地联合训练所有组件。
3. 3. 我们引入了一种基于置信度的自适应推理机制,当 MTP 模块不确定时回退到标准解码,从而在困难的推理步骤上权衡吞吐量和准确性。
4. 4. 我们在 MATH500 (Hendrycks et al., 2021 (https://arxiv.org/html/2606.13862#bib.bib55))、AMC23 (MAA, 2023 (https://arxiv.org/html/2606.13862#bib.bib58))、OlympiadBench (He et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib56)) 和 GPQA-Diamond (Rein et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib57)) 上进行了评估,实现了 20-35% 的 CoT 长度缩减,同时准确性保持在基线的 1-2 点范围内。
## 2 相关工作
#### LLM 中的潜在推理。
当被问及问题时,LLM 可以在回答问题之前通过离散令牌生成中间推理,这种推理过程被称为思维链 (CoT) (Wei et al., 2022 (https://arxiv.org/html/2606.13862#bib.bib9))。最近,一些工作关注使用超越离散令牌的 CoT 状态。Hao et al. (2024 (https://arxiv.org/html/2606.13862#bib.bib16)); Yue et al. (2025 (https://arxiv.org/html/2606.13862#bib.bib20)); Shen et al. (2025b (https://arxiv.org/html/2606.13862#bib.bib21)) 引入了直接将最后一个连续隐藏状态作为下一步输入嵌入的方法。然而,这些方法要么需要复杂的训练课程,要么只考虑简单的设置。Giannou et al. (2025 (https://arxiv.org/html/2606.13862#bib.bib22)); Zhang et al. (2025a (https://arxiv.org/html/2606.13862#bib.bib24)); Deng et al. (2025 (https://arxiv.org/html/2606.13862#bib.bib28)); Shen et al. (2025a (https://arxiv.org/html/2606.13862#bib.bib27)) 先生成然后压缩新生成的令牌,但仅节省了上下文长度,并且涉及与现代推理引擎不兼容的注意力掩码操作 (Kwon et al., 2023 (https://arxiv.org/html/2606.13862#bib.bib49); Zheng et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib50))。Cheng 和 Van Durme (2024 (https://arxiv.org/html/2606.13862#bib.bib19)); Su et al. (2025 (https://arxiv.org/html/2606.13862#bib.bib25)); Tan et al. (2025 (https://arxiv.org/html/2606.13862#bib.bib29)) 训练模型将离散 CoT 压缩成潜在令牌,并在推理时直接生成潜在令牌。一些工作探索将多个下一个令牌选择组合成一个潜在输入令牌 (Zhang et al., 2025b (https://arxiv.org/html/2606.13862#bib.bib17); Zhuang et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib18); Zhu et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib23); Jain and Rappazzo, 2025 (https://arxiv.org/html/2606.13862#bib.bib26); Wu et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib30); Tang et al., 2026 (https://arxiv.org/html/2606.13862#bib.bib36); Gozeten et al., 2026 (https://arxiv.org/html/2606.13862#bib.bib31))。Peng et al. (2026 (https://arxiv.org/html/2606.13862#bib.bib60)) 使用令牌叠加预训练 LLM,实现了预训练时间的加速。
#### 压缩输入上下文。
除了潜在推理,还有许多工作将更多信息压缩到输入嵌入中。Prefix Tuning (Li and Liang, 2021 (https://arxiv.org/html/2606.13862#bib.bib32)) 使用学习到的软嵌入前缀来调节 LLM。许多工作压缩输入上下文令牌以节省上下文长度 (Jiang et al., 2023 (https://arxiv.org/html/2606.13862#bib.bib33); Li et al., 2023 (https://arxiv.org/html/2606.13862#bib.bib34); Mu et al., 2023 (https://arxiv.org/html/2606.13862#bib.bib35); Berton et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib38); Feldman and Artzi, 2025 (https://arxiv.org/html/2606.13862#bib.bib37))。
#### 减少离散 CoT 令牌。
许多方法也通过强化学习 (Aggarwal and Welleck, 2025 (https://arxiv.org/html/2606.13862#bib.bib40); Shrivastava et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib41)) 和微调 (Xia et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib42)) 生成了更短的离散 CoT 序列。值得注意的是,这些离散 CoT 令牌长度缩减方法与 SuperThoughts 是正交的。
#### 每个令牌的可变计算量。
近期的工作探索了在语言模型中进行自适应计算分配,超越了统一的令牌级处理,例如 BLT (Pagnoni et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib44)) 和 H-Net (Hwang et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib43)) 将字节分割成动态大小的块,以及 DLCM (Qu et al., 2026 (https://arxiv.org/html/2606.13862#bib.bib45)) 学习令牌之上的可变长度语义概念。Liu and Zhang (2025 (https://arxiv.org/html/2606.13862#bib.bib39)) 提出了 HAMBURGER,其通过组合嵌入器将多个令牌融合成单个输入嵌入,并通过微步解码器每前向传播解码几个令牌。
#### 多令牌预测。
传统上,LLM 使用下一个令牌预测损失进行训练,其中模型被提供一个前缀并需要预测跟随该前缀的下一个令牌 (Radford et al., 2019 (https://arxiv.org/html/2606.13862#bib.bib3))。Bachmann and Nagarajan (2024 (https://arxiv.org/html/2606.13862#bib.bib4)) 认为下一个令牌预测中的教师强制导致了不准确的下一个令牌预测器,并提出了一个学习预测多个令牌的解决方案。Gloeckle et al. (2024 (https://arxiv.org/html/2606.13862#bib.bib5)) 从头开始预训练 LLM,使其一次性使用多个输出头预测多个未来令牌,并表明多令牌预测 (MTP) 在较大模型上优于下一个令牌预测 (NTP)。DeepSeek-V3 (Liu et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib7)) 也使用 MTP 目标训练模型,但使用轻量级 MTP 模块而不是独立的输出头。Ahn et al. (2025 (https://arxiv.org/html/2606.13862#bib.bib8)) 提出了联合多令牌预测 (JTP),通过采用表示瓶颈来鼓励模型在输出隐藏状态中编码更丰富的信息。尽管 MTP 一次性预测多个令牌,但在推理时,当前的 MTP 架构只能利用额外的令牌进行自推测解码 (Liu et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib7); Gloeckle et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib5); Cai et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib6)),因为主模型仍然需要为 MTP 模块生成的令牌填充 KV 条目。关键在于,这并没有减少推理时的总 FLOPs。主模型仍然必须对所接受的每个令牌执行完整的前向传播,这意味着使用 MTP 的自推测解码旨在降低低 GPU 利用率下的延迟,而不是提升计算效率。
#### 缩放测试时计算。
近期的缩放定律表明,优化测试时计算可以超越简单地增加参数数量 (Snell et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib13))。领先的推理模型,如 OpenAI o1 (Jaech et al., 2024 (https://arxiv.org/html/2606.13862#bib.bib11)) 和 DeepSeek-R1 (Guo et al., 2025 (https://arxiv.org/html/2606.13862#bib.bib12)),利用强化学习扩展 CoT 序列。
## 3 方法
请参阅标题
图 3: SuperThoughts 架构概览。
在每一步 i,Compressor 将 CoT 令牌对 (c_{2i-1}, c_{2i}) 编码成单个潜在向量 {x}_i,通过一个 2H → H 的压缩器,其中 H 是单个令牌嵌入的维度。Main 模块处理 {x}_i 以产生隐藏状态 {h}_i,并预测下一个奇数索引令牌 c_{2i+1}。然后 MTP 模块接收一个投影 {x}'_i,该投影结合了三个输入——前一个偶数令牌、刚从 Main 预测的奇数令牌以及 Main 的隐藏状态——通过一个 3H → H 的投影,并预测相应的偶数索引令牌 c_{2i+2}。两个模块共享相同的输出 LM 头。这种设计使得模型每步能够消耗两个令牌并生成两个令牌。
标准思维链(CoT)推理自回归地生成一系列离散令牌 c_{1:L} = (c_1, ..., c_L),需要 L 次前向传播才能产生长度为 L 的推理链。我们引入了 SuperThoughts,一个通过成对处理和生成令牌来将计算成本减半的框架。在每个推理步骤,模型消耗两个令牌并预测两个令牌,将所需的前向传播次数从 L 减少到 L/2,同时保留离散令牌监督。在本节中,我们详细说明:
(1) 架构(第 3.1 节):我们模型的三个组成部分,包括 Compressor、Main 模块和轻量级多令牌预测(MTP)模块;
(2) 训练(第 3.2 节):一个两阶段协议,首先通过蒸馏对齐压缩后的潜在空间,然后联合训练所有组件;
(3) 自适应推理(第 3.3 节):一种解码算法,当模型置信度较低时动态回退到标准的单令牌生成。
### 3.1 SuperThoughts 架构
我们的模型通过在处理思考过程中操作叠加的令牌对(而不是单个 CoT 令牌)来处理推理链。我们将每个示例构建为以下序列: q_{1:L_q} ␣␣␣␣ 提示令牌 c_{1:L_c} ␣␣␣␣ 响应令牌。相似文章
TTE-Flash:通过先思后嵌入令牌加速基于推理的多模态表示
论文介绍了TTE-Flash,一种用潜在思考令牌替换显式思维链推理的方法,以恒定推理成本生成推理感知的多模态表示,在MMEB-v2基准测试上优于显式CoT基线。
更少语言、更少Token:高效统一逻辑跨语言链式思维推理框架
UL-XCoT在统一逻辑空间中剪枝低质量多语言推理路径,削减>50% token开销,同时提升低资源语言的准确率与鲁棒性。
ThoughtFold: 通过内省偏好学习折叠推理链
ThoughtFold 提出了一种利用内省偏好学习的框架,旨在减少大型推理模型在思维链推理中的冗余探索,在 DeepSeek-R1-Distill-Qwen-7B 上实现了约 56% 的令牌减少,且准确率无损。
使用Token叠加的高效预训练
Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。
基于代理上下文的链式思维微调长上下文推理
提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。