重新思考稠密顺序链:推理语言模型能够从稀疏、乱序的思维链中提取答案

arXiv cs.CL 论文

摘要

来自联发科(MediaTek)和台湾国立大学的研究论文挑战了推理链必须稠密且按顺序排列的假设,展示了模型能够从稀疏、乱序且充满噪声的推理痕迹中提取答案。研究结果表明,答案提取具有鲁棒性且不依赖顺序,这可能为实现更高效、并行化的推理生成铺平道路。

arXiv:2605.07307v1 公告类型:新文章 摘要:现代推理语言模型生成稠密且顺序的思维链痕迹,隐含假设是每个标记(token)都有贡献,且步骤必须按顺序处理。我们通过一套系统的干预流程——包括移除、掩码、乱序和噪声注入——对上述三种模型和三个基准测试中的模型生成推理链应用这些操作,从而挑战了这两个假设。我们的研究结果在三个维度上具有反直觉性。 顺序:推理链的顺序对答案提取重要吗?不——行级乱序使准确率降低不到 0.5 个百分点;词级乱序保留了 62%-89% 的准确率;仅标记级乱序会使准确率降至接近零。仅预训练和指令微调变体表现出几乎相同的容忍度(在行级乱序下分别为 78.67% 和 78.00%),表明顺序无关性源于预训练,而非特定的推理微调。 稠密:推理链中的所有信息对答案提取都重要吗?不——掩码数字标记会使准确率完全降至 0%,而掩码字母文本则使准确率提高了 4.7 个百分点。 鲁棒性:既乱序又非稠密的推理链仍然鲁棒吗?是的——最激进的简化表示(去除所有自然语言,行任意乱序)仍能达到 83% 的准确率,以三倍于真实答案的频率注入虚假答案,准确率保持不变(83.3%->83.3%),从而证伪了基于频率的提取解释。这些结果确立了答案提取是在稀疏、对顺序不敏感且结构鲁棒的信息基底上操作的,为并行化和标记高效的推理生成开辟了路径。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:00

# 重新思考密集的序列链:推理语言模型可以从稀疏、顺序打乱的思维链中提取答案

来源:https://arxiv.org/html/2605.07307

Yi-Chang Chen$^1$ Feng-Ting Liao$^1$ Da-shan Shiu$^1$ Hung-yi Lee$^2$
$^1$MediaTek Research $^2$Artificial Intelligence Center of Research Excellence, National Taiwan University

###### 摘要

现代推理语言模型生成密集且连续的思维链(Chain-of-Thought, CoT)轨迹,隐含地假设每一个 token 都有贡献,且步骤必须按顺序消费。我们通过对不同规模、不同模型家族的三个模型生成的推理链进行系统性干预——包括移除、掩码、打乱和噪声注入,并在跨越不同领域的三个具有挑战性的基准上进行评估——来挑战这两个假设。我们的发现在这三个维度上是反直觉的:*顺序*:推理链的序列顺序对于答案提取重要吗?不——行级打乱使准确率降低不到 0.5 个百分点(pp);词级打乱保留了 62%–89% 的准确率;只有 token 级打乱才会降至接近零。关键在于,同一模型的仅预训练版本和指令微调版本对这两种扰动表现出几乎相同的耐受性(行级打乱下分别为 78.67% 和 78.00%),表明这种顺序独立性源于预训练,而非推理特定的微调。*密度*:推理链中的所有信息对于答案提取都重要吗?不——在我们的数学推理实验中,只有符号和数值内容(包括显式的答案出现)是不可简化的。掩码数值数字会使准确率降至正好 0%,而掩码字母文本甚至能将准确率提高 4.7 pp。*鲁棒性*:既经过顺序打乱又非密集的推理链仍然具有鲁棒性吗?是的——最激进的缩减表示(移除所有自然语言,行任意打乱)仍能达到 83% 的准确率,而以 3 倍于正确答案的频率注入错误答案会使准确率完全保持不变(83.3% $\to$ 83.3%),从而证伪了基于频率的提取理论。综上所述,这些结果确立了答案提取操作于一个稀疏、顺序打乱且结构上具有鲁棒性的信息基底之上,为并行化和 token 高效的推理生成开辟了新路径。所有代码和数据均已公开。$^{1,1,1}$ https://github.com/mtkresearch/reasoning-behavior

## 1 引言

大型推理语言模型——如 OpenAI 的 o1 [OpenAI, 2024](https://arxiv.org/html/2605.07307#bib.bib3) 和 DeepSeek-R1 [DeepSeek-AI, 2025](https://arxiv.org/html/2605.07307#bib.bib4)——通过在生成最终答案之前生成长度的思维链(CoT)轨迹 [Wei et al., 2022](https://arxiv.org/html/2605.07307#bib.bib1),在具有挑战性的多步骤任务上取得了强劲的性能。在推理时,答案生成模型条件于整个轨迹以提取最终响应。

这一范式依赖于两个隐含的假设。第一个是*密度*:推理轨迹中的每一个 token 都对最终答案有有意义的贡献。第二个是*顺序*:推理步骤必须按顺序生成和消费。这两个假设共同使得推理本质上代价高昂:推理成本随问题难度线性增长,且自回归依赖关系阻碍了并行化。

这两个假设在答案*提取*阶段都未得到实证验证。如果提取仅依赖于轨迹内容的稀疏、无序子集,那么提取阶段既不对生成阶段产生的内容施加顺序约束,也不施加完整性约束——原则上,这两个阶段可以解耦。这种解耦将使生成摆脱当前的约束:如果提取阶段能容忍顺序打乱的推理链,推理步骤无需自回归生成,而是可以并行生成;如果提取阶段能容忍稀疏的推理链,中间 token 无需详尽生成,而是可以有选择地省略。因此我们问:*模型在从推理轨迹中提取答案时,实际依赖的信息结构是什么?*

为了实证回答这一问题,我们对模型生成的推理链应用受控变换——包括移除(字母字符、问题文本)、掩码(字母文本、数值数字、答案出现)、打乱(token、词、行及行内词)和噪声注入,并测量由此产生的答案准确率变化。实验涵盖来自不同组织、不同参数规模的三个模型(GPT-OSS-120B, DeepSeek-V3.1-671B, OLMo-3.1-32B)以及覆盖三个不同推理任务的三个基准——数学计算(AIME 2025)、算法问题求解(CodeElo)和科学推断(GPQA-Diamond),以验证我们的观察结果并非归因于单一模型的特性或单一领域。

我们的发现是反直觉的。*关于顺序打乱*:在所有模型和所有三个领域中,随机置换推理链的*行*使准确率降低不到 0.5 个百分点(pp);词级打乱在 AIME 2025 上保留了 62%–89% 的准确率,而 token 级打乱则降至接近零,确立了词级语义身份为提取所需的最小粒度。关键在于,我们发现同一模型的仅预训练版本和指令微调版本对行级和词级打乱表现出几乎相同的耐受性,表明这一特性根植于 Transformer 的预训练机制,而非推理特定的微调。*关于稀疏性*:从数学推理链中移除所有字母字符仅损失 1.3 pp 的准确率;掩码字母文本实际上*提高*了 4.7 pp 的准确率,表明自然语言散文在此设置下并非答案提取的关键要素;剥离所有自然语言并以任意行顺序排列的链仍能达到 83% 的准确率。*关于鲁棒性*:以三倍于正确答案的频率注入错误答案句子使准确率完全不变(91.3% $\to$ 91.3%)。这些结果确立了答案提取是*稀疏的*、*顺序打乱的*和*结构上鲁棒的*——直接 contradicts 当前范式的两个假设。

综上所述,这些发现表明 Transformer 处理推理链更像*无序的符号约束集*,而非序列证明——有选择地关注数值关系结构,而 largely 忽略散文和位置排列。这具有直接的实际意义:如果提取能容忍重排序和内容稀疏性,生成阶段原则上可以摆脱当前的自回归、详尽约束——推理步骤可以并行生成,无信息的散文 token 可以有选择地省略。

这项工作做出以下贡献:

- • 用于探测答案提取的系统性实证框架。一系列受控变换(移除、掩码、打乱、噪声注入)应用于三个模型(GPT-OSS-120B, DeepSeek-V3.1-671B, OLMo-3.1-32B)和三个领域(AIME 2025, CodeElo, GPQA-Diamond),使提取阶段实际使用的信息可复现地、细粒度地隔离。
- • 推理链在行级上是顺序打乱的;词级身份是最小必要粒度。行顺序破坏导致可忽略的准确率损失(<<0.5 pp);词级语义身份是提取的最小必要单元——表明推理步骤无需按顺序呈现,或许甚至无需按顺序生成。
- • 顺序独立性存在于预训练模型中。预训练和指令微调版本显示出几乎相同的打乱耐受性,排除了推理特定微调作为此特性的来源。
- • 信息内容分布不均匀——字母散文是冗余的,而数值内容和显式答案是不可简化的。剥离所有自然语言并以任意行顺序呈现的链仍能达到 83% 的准确率。
- • 结构信号具有内在鲁棒性——即使强烈的错误答案注入也无法覆盖它。在 3 倍正确答案频率下提取不受影响,表明信号由数值结构上的关系约束满足 governing,而非表面级的频率计数。

## 2 相关工作

一系列先前工作考察了推理轨迹中的哪些信息实际上驱动了模型性能。Min et al. (2022) [https://arxiv.org/html/2605.07307#bib.bib24](https://arxiv.org/html/2605.07307#bib.bib24) 显示,上下文演示标签的正确性对任务性能的贡献出乎意料地少——标签空间、输入分布和序列格式比字面语义内容更重要。Madaan 和 Yazdanbakhsh (2022) [https://arxiv.org/html/2605.07307#bib.bib25](https://arxiv.org/html/2605.07307#bib.bib25) 将 CoT 提示分解为结构模式和语义内容,发现模式驱动性能,而事实内容 largely 可丢弃;他们的 Concise CoT 在准确率损失最小的情况下实现了超过 20% 的 token 减少。Lanham et al. (2023) [https://arxiv.org/html/2605.07307#bib.bib26](https://arxiv.org/html/2605.07307#bib.bib26) 通过干预实验显示,模型对推理轨迹的依赖高度依赖于任务,且较大的模型倾向于产生*较少*忠实的 CoT。Pfau et al. (2024) [https://arxiv.org/html/2605.07307#bib.bib27](https://arxiv.org/html/2605.07307#bib.bib27) 证明,即使中间 token 是无意义的填充物,Transformer 也能在具有挑战性的任务上取得强劲性能——主要机制是额外的计算预算,而非语义内容。总之,这些结果表明 CoT 推理链包含大量冗余,计算空间而非语义内容可能是性能的主要驱动力。

我们的工作通过直接干预模型生成的推理链并沿两个正交轴(稀疏性和顺序依赖性)量化信息几何,扩展了这一研究方向。与修改人类撰写的演示或间接分析模型行为的先前工作不同,我们将可配置的变换管道应用于前沿模型生成的链,并测量跨多个模型和领域的准确率变化。从模型生成的推理链中移除所有自然语言文本的成本不到 2 pp 的准确率,重新排列行导致可忽略的退化,这表明序列结构的重要性不如上下文中任何位置的正确信息 token 的存在。

## 3 方法论

### 3.1 问题表述

传统推理模型给定问题 $q$ 和推理链 $r=(r_1, r_2, \ldots, r_n)$ 生成答案 $a$:

$$P(a \mid q, r) \quad (1)$$

我们的核心假设是,答案生成可以在*稀疏且顺序打乱*的表示 $\tilde{r}=T(r; \theta)$ 下成功:

$$P(a \mid q, r) \approx P(a \mid q, \tilde{r}) \quad (2)$$

其中 $T$ 控制应用于 $r$ 的稀疏性或重排序程度。我们通过测量对模型生成的推理链应用一系列受控变换下的答案准确率来操作化这一假设,以未变换的链为基线。

表 1:本工作中使用的变换处理器。我们实现了五类:打乱($\mathcal{S}$)以多种粒度置换内容;掩码($\mathcal{M}$)用掩码 token 替换目标字符类;移除($\mathcal{R}$)完全剥离内容;噪声注入($\mathcal{N}_k$)以 $k$ 倍于正确答案的频率插入错误答案句子;随机化基线($\mathcal{D}$)用随机样本替换 token 或词。处理器依次组合(例如,$\mathcal{S}_{\text{line}} \circ \mathcal{R}_{\alpha}$)。

| 符号 | 名称 | 操作 |
| :--- | :--- | :--- |
| $\mathcal{S}_{\text{tok}}$ | Token-Shuffle | 全局置换每个子词 token。 |
| $\mathcal{S}_{\text{word}}$ | Word-Shuffle | 将整个链视为词的平坦集合并全局置换。 |
| $\mathcal{S}_{\text{line}}$ | Line-Shuffle | 全局置换由换行符分隔的段;保留行内内容。 |
| $\mathcal{S}_{\text{ilw}}$ | In-line-Word-Shuffle | 独立置换每行内的词;保留行顺序。 |
| $\mathcal{M}_{\alpha}$ | Mask-Alphabet | 将所有字母字符替换为 ■。 |
| $\mathcal{M}_{\nu}$ | Mask-Number | 将所有数值数字替换为 ■。 |
| $\mathcal{M}_{\text{ans}}$ | Mask-Answer | 将所有地面真相答案的出现替换为 ■。 |
| $\mathcal{R}_{r}$ | Reasoning-Free | 从提示中完全省略推理链。 |
| $\mathcal{R}_{\alpha}$ | Remove-Alphabet | 剥离所有字母字符;保留数字、符号和空白。 |
| $\mathcal{R}_{\text{ans}}$ | Remove-Answer | 从链中剥离所有地面真相答案的出现。 |
| $\mathcal{R}_{q}$ | Remove-Question | 从答案生成提示中省略原始问题。 |
| $\mathcal{N}_{k}$ | Noise-Injection ($k\times$) | 以 $k$ 倍于正确答案的频率插入错误答案句子。 |
| $\mathcal{D}_{\text{tok}}$ | Random-Token | 用均匀采样的随机 token 替换每个 token。 |
| $\mathcal{D}_{\text{word}}$ | Random-Word | 用根据推理链词频分布采样的词替换每个词。 |

### 3.2 实验设置

我们的实验管道分为三个阶段。

**阶段 1 - 推理链收集**。在任何干预之前,我们在每个基准([Section 3.3](https://arxiv.org/html/2605.07307#S3.SS3))上运行每个模型([Section 3.4](https://arxiv.org/html/2605.07307#S3.SS4)),在其标准推理模式下收集模型生成的推理链;这些未变换的链作为所有后续变换的基底。

**阶段 2 - 变换和测量**。为了探测 [Section 3.1](https://arxiv.org/html/2605.07307#S3.SS1) 中的假设,我们将 [Table 1](https://arxiv.org/html/2605.07307#S3.T1) 中列出的处理器应用于每个收集的链,并测量答案准确率 $\text{Accuracy}=\#\text{correct}/\#\text{success}$。处理器依次组合——例如,$\mathcal{S}_{\text{line}} \circ \mathcal{R}_{\alpha}$——使联合变换效果的系统性探索成为可能。每个基准的正确性标准在 [Section 3.3](https://arxiv.org/html/2605.07307#S3.SS3) 中描述。

**阶段 3 - 评估**。我们在两种模式下进行评估。在**自由生成(Gen)**模式下,模型在没有除了提供的(变换后的)推理链之外的任何结构约束的情况下生成答案。在**检索(Ret)**模式下,附加任务特定的完成前缀——“Thus, the answer is”用于 AIME 2025 和 GPQA-Diamond;“Thus, the code is\n```\n”用于 CodeElo——约束模型立即产生答案而无需进一步深思熟虑。我们采用 Ret 作为主要评估设置;选择此设置的实证动机在 [Section 4.1](https://arxiv.org/html/2605.07307#S4.SS1) 中阐述,Gen 结果仅供参考。

**基线比较**。*基线*应用无变换:原始推理链逐字提供,每个变换结果与之比较。基线准确率报告在 [Table 2](https://arxiv.org/html/2605.07307#S4.T2) 的 *Original+Ret* 行中。

**计算资源**。这项工作不涉及模型训练;所有实验仅由模型推理组成。

相似文章

推理模型难以控制其思维链,但这其实是好事

OpenAI Blog

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。

脆弱的思考:大型语言模型如何处理思维链扰动

arXiv cs.CL

本论文对大型语言模型在思维链推理步骤中处理损坏情况的能力进行了全面的实证评估,在数学推理任务上针对13个模型和5种扰动类型(数学错误、单位转换、盲从、跳过步骤、额外步骤)进行了测试。研究结果揭示了异质性的漏洞模式,对在多阶段推理管道中部署LLM具有重要意义。

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。