推理之旅：剖析思维链如何在模型间转移

arXiv cs.CL 2026/05/29 04:00 论文

摘要

本文研究了思维链推理痕迹如何在不同模型间转移，采用受控的提供者-接收者框架来剖析成功转移背后的机制。

arXiv:2605.28913v1 公告类型：新摘要：大型推理模型（LRM）在生成最终答案之前通常会产生大量的思维链（CoT）痕迹。作为显式的文本制品，这些痕迹可以传递给其他模型来解决相同的任务，从而实现跨模型的推理转移。然而，成功的转移本身并不能揭示所提供的CoT如何有助于另一个模型的答案。我们通过一个受控的提供者-接收者框架来研究这个问题，其中提供者生成推理痕迹，接收者从逐渐变长的痕迹前缀开始解决相同的问题。我们比较了强制回答（接收者直接从前缀回答）和自由生成（接收者在回答前可以继续推理）两种模式。在多种模型和基准测试中，完整的痕迹通常能成功转移，但前缀轨迹揭示了不同的机制。在强制回答模式下，AIME的转移主要由显式答案的可用性驱动。而MMLU-Pro则反映出接收者能力的作用更大，而ZebraLogic依赖于部分结构化答案信息，而不仅仅是完整答案的泄露。在自由生成模式下，部分CoT提高了所有基准测试的性能，表明前缀可以引导继续推理。最后，接收者之间的答案一致性为提前停止提供者推理提供了无金标信号。总体而言，跨模型CoT转移并非单一现象：它可以反映答案提取、推理支架或依赖于接收者的能力。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:14

# 剖析思维链如何在模型间迁移 来源：https://arxiv.org/html/2605.28913 ## 跨模型传播的推理：剖析思维链如何在模型间迁移 Xinyuan Cheng††感谢：同等贡献。 Beiduo Chen¹ Philipp Mondorf Barbara Plank MaiNLP，语言信息处理中心，慕尼黑路德维希-马克西米利安大学，德国 慕尼黑机器学习中心，德国 [email protected]（https://arxiv.org/html/2605.28913v1/mailto:[email protected]），{beiduo.chen（https://arxiv.org/html/2605.28913v1/mailto:[email protected]），p.mondorf（https://arxiv.org/html/2605.28913v1/mailto:[email protected]），b.plank（https://arxiv.org/html/2605.28913v1/mailto:[email protected]）}@lmu.de ###### 摘要 大型推理模型（LRMs）在生成最终答案之前，通常会产生大量的思维链（CoT）轨迹。作为显式的文本产物，这些轨迹可以传递给其他模型来解决相同任务，从而实现**跨模型推理迁移**。然而，成功的迁移本身并不能揭示所提供的思维链如何促成另一个模型的答案。我们通过一个受控的提供者-接收者框架来研究这个问题：一个**提供者**生成推理轨迹，然后**接收者**利用逐渐增长的轨迹前缀来解决同一问题。我们比较了**强制回答**（接收者直接从给定前缀给出答案）和**自由生成**（接收者在给出答案前可以继续推理）两种模式。在跨模型和基准测试中，完整的轨迹通常能成功迁移，但前缀轨迹揭示了不同的机制。在强制回答模式下，AIME 的迁移很大程度上由显式答案的可用性驱动。相反，MMLU-Pro 更多地反映了接收者自身能力的作用，而 ZebraLogic 则依赖于部分结构化答案信息，而非仅仅答案泄露。在自由生成模式下，部分思维链提高了各基准的性能，表明前缀可以引导后续推理。最后，接收者之间的答案一致性为提前中止提供者推理提供了一个无需标注信号的依据。总体而言，跨模型思维链迁移并非单一现象：它可能反映答案提取、推理脚手架或接收者依赖的能力。

## 1 引言

参照标题图1：我们提供者-接收者推理迁移框架概览。接收者根据提供者轨迹的累积部分，通过强制回答或自由生成来解决同一问题。下方面板展示了该框架如何在不同答案和推理结构的基准测试中实例化。

大型推理模型（LRMs）通过在最终答案之前生成长的思维链（CoT）轨迹，在复杂的多步骤任务上取得了强劲的性能 [OpenAI (2024); Guo et al. (2025); Ettinger et al. (2025); Bakouch et al. (2025); Team (2025)]。尽管这些轨迹不一定忠实反映生成模型的内部计算 [Paul et al. (2024); Lanham et al. (2023); Turpin et al. (2023); Mondorf and Plank (2024b); Arcuschin et al. (2025); Chen et al. (2025c)]，但它们仍然可以作为传达任务相关信息的有用文本产物 [Mondorf and Plank (2024a)]。最近的研究在跨模型环境中实现了这一观点，即一个模型的轨迹可以被重复使用、验证、延续或传递给其他模型用于答案生成、验证和修正 [Roytburg et al. (2026); Zhao et al. (2026); Shi et al. (2025); Li and Goyal (2026); Liu and He (2026)]。然而，成功的跨模型使用本身并不能揭示轨迹是如何起作用的。先前的工作主要询问这种复用是否能改善最终性能或推理效率 [Pal et al. (2026); Bi et al. (2025)]。这留下了以下问题：思维链中的哪些信息实际被使用，以及迁移如何随着轨迹的展开而出现。

一个轨迹可能仅仅包含答案，提供有助于其他模型继续推理的部分推理，或者与接收模型自身的能力相互作用。因此，我们在多个模型和基准上开展了一项受控的提供者-接收者研究：一个**提供者**为一个问题生成推理轨迹，一个**接收者**使用该轨迹来解决同一问题。我们做出两个设计选择以揭示迁移的机制。首先，为了定位提供者轨迹何时变得足够，我们不仅评估完整的轨迹，还评估同一推理过程的累积前缀。这显示了随着更多提供者推理的可用，接收者性能如何变化。其次，由于经过推理调优的接收者可能不会自然地从一个突然截断的思维链中给出答案，我们比较了两种轨迹使用模式。在**强制回答**模式下，接收者直接从可用的前缀给出答案，这将所能从提供的文本中提取的内容孤立出来。在**自由生成**模式下，接收者可以在给出答案前继续推理，这测试了部分前缀是否为接收者自身的推理搭建了脚手架。图1总结了我们的提供者-接收者推理迁移框架，并说明了下面分析的基准特定现象：AIME上的显式答案可用性 [Balunovic et al. (2026)]，MMLU-Pro上接收者内在能力 [Wang et al. (2024)]，以及ZebraLogic上结构化部分答案的积累 [Lin et al. (2025)]。在三个基准上，我们发现完整的提供者轨迹通常能成功跨模型边界迁移，但前缀轨迹揭示了不同的支持机制。在AIME上，两种接收者模式差异显著：在强制回答模式下，接收者通常只有在前缀已经包含最终答案后才变得正确，而在自由生成模式下，它们经常通过在部分轨迹上继续推理而在答案泄露之前就取得成功。在MMLU-Pro上，迁移更强烈地受到接收者内在能力的影响；在ZebraLogic上，它依赖于结构化的部分答案信息，而非仅仅是完整的答案泄露。最后，我们研究了作为无需标注信号的接收者一致性。当多个接收者从部分前缀给出相同答案时，我们停止并使用那个一致的答案。当相同答案在连续的前缀步骤中持续出现时，一致性更为可靠，尤其是在强制回答模式下的AIME上，稳定的共识通常表明前缀已经包含答案。我们的贡献是：
- •我们引入了一项受控的提供者-接收者研究，跨多个模型和基准研究跨模型思维链迁移，使用累积轨迹暴露和两种轨迹使用模式来探究迁移如何出现。
- •我们展示了迁移成功并不意味着提供者轨迹的单一功能：轨迹路径区分了答案提取、推理脚手架、接收者内在能力和结构化部分答案信息。
- •我们提出接收者一致性作为无需标注信号的停止信号，表明基于一致性的停止可以保留大部分迁移收益，同时消耗更少的提供者推理。

## 2 相关工作

| 角色 | 缩写 | 模型 | AIME | MMLU-Pro | ZebraLogic |
| :--- | :--- | :--- | :--- | :--- | :--- |
| 提供者 | Qwen-4B-Thk | Qwen3-4B-Thinking-2507 [Team (2025)] | 84.44 | 81.22 | 96.04 |
| 提供者 | Qwen-4B | Qwen3-4B [Team (2025)] | 70.00 | 75.61 | 90.21 |
| 提供者 | GPT | GPT-OSS-20B [OpenAI (2025)] | 76.67 | 83.17 | 79.58 |
| 接收者 | Qwen-1.7B | Qwen3-1.7B [Team (2025)] | 45.56 | 63.17 | 61.88 |
| 接收者 | Qwen-0.6B | Qwen3-0.6B [Team (2025)] | 15.56 | 40.73 | 8.12 |
| 接收者 | R1-Llama | DeepSeek-R1-Distill-Llama-8B [Guo et al. (2025)] | 36.67 | 61.95 | 24.58 |
| 接收者 | SmolLM | SmolLM3-3B [Bakouch et al. (2025)] | 40.00 | 63.41 | 10.21 |

表1：提供者-接收者实验中使用的模型。报告的每个模型使用其自身完整推理轨迹解决基准测试的基准准确率；数值为百分比。由于计算可行性，我们使用这些基准的子集；子集选择细节和统计信息见附录A。

#### 推理轨迹的跨模型使用。 近期研究将推理轨迹视为可跨模型边界复用的产物：思维链可以在其他模型中诱导行为，可以跨模型规模进行总结或转移，或者可以在复用和验证框架中与答案执行分离 [(Pal et al., 2026); (Bi et al., 2025); (Aggarwal et al., 2026)]。相关的协作和推测推理系统进一步使用中间推理步骤进行跨模型的草稿、验证、选择或修正 [(Pan et al., 2026); (Zhao et al., 2026); (Shi et al., 2025); (Liu and He, 2026)]，而其他工作则研究模型在给定、部分或逐步轨迹上的行为 [(Roytburg et al., 2026); (Chen et al., 2026); (Li and Goyal, 2026)]。这些研究确立了推理轨迹可以跨模型边界传播，但它们主要评估复用是否成功或改善了系统效用。我们的工作提出了一个不同的问题：跨模型迁移为何以及何时成功？通过使用累积前缀和两种轨迹使用模式，我们分析了迁移如何从答案提取、推理脚手架、接收者内在能力、结构化部分答案信息和接收者一致性中产生。

#### 作为结构化文本产物的推理轨迹。 另一条研究线则研究推理轨迹的内部结构。综述根据推理范式、结构变体和提示策略组织了 CoT 和长 CoT 方法 [(Chu et al., 2024); (Chen et al., 2025b)]。其他工作分析轨迹以支持人类解释或监督，例如，通过将思维链分割成支持和反对的陈述，评估其可监控性，识别有影响力的推理句子，或将轨迹抽象为结构化的推理动态 [(Chen et al., 2025a); (Korbak et al., 2025); (Bogdan et al., 2025); (Yu et al., 2025)]。这些研究表明思维链具有有意义的内部组织结构，但它们主要从面向人类的角度分析这种组织。我们的工作则相反，使用跨模型迁移作为轨迹内容的功能性探针。我们不是询问思维链的哪些部分对人类是可解释的，而是询问哪些部分轨迹信息对接收者模型变得有用，以及这种有用性如何依赖于接收者被允许使用轨迹的方式。

## 3 跨模型推理迁移

### 3.1 基准测试

我们选择基准测试来评估跨模型推理迁移。如图1所示，这三个基准测试涵盖了互补的情况：AIME [Balunovic et al. (2026)] 涉及推导密集型数学推理，答案为单个整数；MMLU-Pro [Wang et al. (2024)] 涉及知识密集型多项选择推理；而 ZebraLogic [Lin et al. (2025)] 则涉及具有结构化多组件答案的约束推理。这些差异使我们能够研究相同的提供者轨迹能否通过不同的机制支持接收者，而不是将推理迁移视为一个与任务无关的现象。

#### 观察到的 CoT 和答案结构。 图1中生成的轨迹反映了这些基准层面的差异。AIME轨迹通常通过符号或定量推导，朝着一个紧凑的数值答案构建，因此迁移可能取决于最终整数何时变得显式。MMLU-Pro轨迹通常利用领域知识比较选项，因此即使提供者前缀很短，接收者也可能从其自身的先验能力中受益。ZebraLogic轨迹通过跟踪实体和属性之间的关系，逐步填充结构化解决方案，因此在完整解决方案可用之前，部分答案组件可能变得有用。这些差异证明了对不同任务应用提供者-接收者协议的合理性。

参照标题图2：以 Qwen-4B 为提供者、SmolLM 为接收者时，跨数据集的 前缀-迁移 轨迹。曲线显示强制回答和自由生成迁移；水平线标记提供者和接收者的基线性能。

### 3.2 模型

我们评估了七个开源推理调优模型，并为它们分配了提供者或接收者的固定角色。**提供者**生成推理轨迹，而**接收者**使用该轨迹来解决同一问题。我们的主要实验侧重于从强到弱的迁移，即更强的模型将轨迹提供给较弱的接收者。这种设置是出于一个可扩展的用例：如果来自更强模型的轨迹可以被较弱模型复用，那么推理迁移可以减少每次回答都运行最强模型的需求。由于我们的模型池受限于可用计算和推理成本，我们的提供者不一定是可用的最大 LRMs。相反，我们根据该池内的实证表现来分配角色，而不仅仅是参数数量。表1报告了模型、缩写、角色以及使用完整推理轨迹的基准准确率。在我们的设置中，提供者模型在各个基准上的表现都优于接收者模型，使其成为“从强到弱”迁移的合适来源。这为每个基准产生了十二个跨模型迁移对。

### 3.3 迁移协议

完整轨迹迁移

推理之旅：剖析思维链如何在模型间转移

相似文章

隐藏于思维：可迁移的思维链痕迹诱导有害行为

重新思考稠密顺序链：推理语言模型能够从稀疏、乱序的思维链中提取答案

推理模型并非只是思考更久，其运作轨迹也不同

推理模型难以控制其思维链，但这其实是好事

训练连续思维链模型：两种机制的故事

提交意见反馈