基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL 2026/05/21 04:00 论文

long-context chain-of-thought reinforcement-learning distillation reasoning fine-tuning proxy-context

摘要

提出ProxyCoT训练框架，通过先在小代理上下文中获取链式思维推理轨迹（通过强化学习或蒸馏），再通过监督微调将其锚定到完整长上下文中，从而提升大语言模型的长上下文推理能力。实验表明，该方法在降低计算成本的同时持续优于基线。

arXiv:2605.20201v1 公告类型：新论文摘要：近期的大语言模型支持多达1000万token的输入，但在需要复杂推理的长上下文任务中表现不佳。这类任务可以仅利用输入的一个子集（代理上下文）而非完整序列来解决。尽管共享相同的底层推理过程，模型在代理上下文和完整上下文之间却存在显著的性能差距。为了改进长上下文推理，我们提出了ProxyCoT，一种新颖的训练框架，将推理能力从短代理上下文迁移到完整长上下文。具体而言，我们首先通过强化学习或从更大的教师模型进行蒸馏，在代理上下文中获得高质量的链式思维推理轨迹，然后通过监督微调将生成的轨迹锚定到完整长上下文中。跨不同数据集的实验表明，ProxyCoT在降低计算开销的同时持续优于强基线。此外，使用ProxyCoT训练的模型能将其长上下文推理能力泛化到域外任务。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:31

# 基于代理思维链调优的长上下文推理
来源：https://arxiv.org/html/2605.20201
Miao Li, Irina Saparina, Alexander Gurung, Mirella Lapata 爱丁堡大学信息学院

###### 摘要

近期的大语言模型支持高达1000万token的输入，但在需要复杂推理的长上下文任务上表现不佳。此类任务通常只需输入的一个子集（代理上下文）即可解决，而非完整序列。尽管共享相同的底层推理过程，模型在代理上下文和完整上下文之间表现出显著的性能差距。为改进长上下文推理，我们提出ProxyCoT，一种新颖的训练框架，将推理能力从短代理上下文迁移到完整长上下文。具体而言，我们首先通过强化学习或从更大教师模型进行蒸馏，在代理上下文上获取高质量的思维链推理轨迹，然后通过监督微调将生成的轨迹扎根于完整长上下文。跨不同数据集的实验表明，ProxyCoT以更少的计算开销持续优于强基线。此外，经ProxyCoT训练的模型还能将其长上下文推理能力泛化到域外任务。111我们的代码、数据和模型可在 https://github.com/oaimli/ProxyCoT 获取。

基于代理思维链调优的长上下文推理

Miao Li, Irina Saparina, Alexander Gurung, Mirella Lapata
爱丁堡大学信息学院

## 1 引言

大语言模型（LLMs）的上下文窗口不断扩展，目前已达到高达1000万token的长度(Gemini Team, 2025 (https://arxiv.org/html/2605.20201#bib.bib35); Llama Team, 2025 (https://arxiv.org/html/2605.20201#bib.bib36); Yang et al., 2025c (https://arxiv.org/html/2605.20201#bib.bib37))。这些模型有望推动需要复杂推理的长上下文任务的发展，例如综合多份医疗报告中的见解，或处理横跨多份金融文件的分析性问题。成功执行这些任务要求LLMs不仅能在海量输入中定位相关信息，还能基于提取的知识进行有效推理以给出正确答案。

参见图注
图1：在零样本设置下，SciTrek (Li et al., 2025a (https://arxiv.org/html/2605.20201#bib.bib10)) 上模型在显示完整长上下文与短代理上下文时的性能差异（以精确匹配计）。完整上下文包含128K token，而代理上下文平均仅约650个token。模型在代理上下文上表现更好，尽管代理上下文要求与对应完整长上下文相同的推理过程。

为增强LLMs的推理能力，先前工作主要依赖思维链蒸馏(Li et al., 2023 (https://arxiv.org/html/2605.20201#bib.bib15); Ho et al., 2023 (https://arxiv.org/html/2605.20201#bib.bib16))和强化学习(DeepSeek-AI et al., 2025 (https://arxiv.org/html/2605.20201#bib.bib3))来激发可见的逐步推理轨迹。这些方法在短上下文任务上取得了成功，但在应用于长上下文设置时表现出明显局限性。例如，思维链蒸馏依赖于教师模型的高质量推理轨迹，而教师模型通常较大，查询起来既慢又昂贵(Li et al., 2023 (https://arxiv.org/html/2605.20201#bib.bib15); Ho et al., 2023 (https://arxiv.org/html/2605.20201#bib.bib16); DeepSeek-AI et al., 2023 (https://arxiv.org/html/2605.20201#bib.bib3))。222OpenAI和Google的闭源模型甚至不提供其推理轨迹的访问权限。此外，即使是强大的教师模型在复杂的长上下文任务上也可能产生不可靠的轨迹。以SciTrek（一个近期发布的基于（全文）科学文章的长上下文问答基准）为例，最佳开源模型仅达到48.8%的精确匹配(Li et al., 2025a (https://arxiv.org/html/2605.20201#bib.bib10))。当没有合适教师可用时，通常使用基于策略梯度的强化学习，但这种方法也难以扩展到长上下文，因为它需要大量的采样，导致训练缓慢且计算成本高昂。

然而，有迹象表明长上下文处理的大量计算成本是不必要的：在许多长上下文任务中，只有一小部分输入提供了正确输出所需的证据。例如，在多跳QA（如HotpotQA (Yang et al., 2018 (https://arxiv.org/html/2605.20201#bib.bib11))）中，系统可能检索整篇文章，但答案通常只依赖于少数几个相关句子。我们将此类子集称为**代理上下文**：包含足够信息以推导出正确答案的紧凑片段。我们假设底层的推理应对上下文表示的选择是**不变的**，即，无论在完整长上下文还是对应的代理上下文条件下，模型应遵循相同的推理步骤。

尽管底层信息和所需推理相同，我们的实验揭示了完整上下文与代理上下文之间存在巨大的性能差距。如图1 (https://arxiv.org/html/2605.20201#S1.F1) 所示，不同规模和模型家族的LLM在条件于代理上下文时表现显著更好。当给定完整上下文时，Li等人 (2025a (https://arxiv.org/html/2605.20201#bib.bib10)) 报告模型常产生合理的*高层*推理结构，但在执行这些步骤所需的*具体*事实上产生幻觉。相比之下，我们发现同样模型在给定代理上下文时，每个推理步骤上的准确性都要高得多。这表明LLMs难以在长输入中将推理正确扎根于相关证据。

由于代理上下文上的性能通常显著更高，且在其上进行强化学习的计算成本低得多，这促使我们利用代理上下文作为改进长上下文推理的手段。图2 (https://arxiv.org/html/2605.20201#S1.F2) 给出了我们训练框架的概览。我们首先基于代理上下文（例如，在SciTrek中，元数据可作为全文文章的代理）获取思维链推理轨迹（CoTs）。这些轨迹可通过可验证奖励的强化学习或从较大的教师模型采样获得。然后我们通过监督微调（SFT）进行CoT蒸馏，训练目标模型在给定完整长上下文时重现源自代理的推理轨迹。

这个两阶段过程首先在计算高效的设定中教模型推理，然后将该推理行为迁移到长输入。与直接在完整上下文上进行强化学习相比，我们的框架显著降低了训练成本，并避免了对长上下文生成教师轨迹的需求。我们总结贡献如下：

- • 我们引入并形式化了长上下文任务的**代理上下文**，揭示了短代理上下文与完整长上下文之间的显著性能差距。
- • 我们提出ProxyCoT，一种新颖的训练框架，利用短代理上下文获取高质量思维链推理轨迹，进而用于增强对完整长上下文的推理。
- • 通过在多种模型和数据集上的广泛实验，我们证明ProxyCoT在生成更短推理轨迹的同时持续优于强基线，并能泛化到域外长上下文推理任务。

参见图注
图2：ProxyCoT的通用两阶段流程（左），以及两种实例化（右）：ProxyCoT-ZS 和 ProxyCoT-RL。给定目标模型 \(M_{\text{init}}\)，ProxyCoT-ZS 使用大型现成模型 \(M^{\mathcal{ZS}}\) 作为教师从代理上下文生成CoT，然后微调 \(M_{\text{init}}\) 作为学生，在对应的长上下文上生成CoT。ProxyCoT-RL 首先使用 RLVR 优化 \(M_{\text{init}}\) 以获得代理上下文上的CoT，随后将RL优化的模型 \(M^{\mathcal{RL}}\) 作为学生微调，将这些CoT扎根于对应的长上下文。

## 2 相关工作

#### 语言模型中的推理

强化学习和来自教师模型的思维链蒸馏是改进语言模型推理的广泛使用的方法(Kumar et al., 2025 (https://arxiv.org/html/2605.20201#bib.bib19))。DeepSeek-R1 (DeepSeek-AI et al., 2025 (https://arxiv.org/html/2605.20201#bib.bib3)) 表明，推理能力可以通过纯强化学习发展，而不需要以监督微调作为第一步。这对于可能不存在提供推理轨迹的“教师”的前沿模型尤为有用。然而，这通常伴随着高昂的计算成本，即使对于数学等短上下文任务也是如此。

DeepSeek-R1 启发了许多后续训练推理模型的工作(Yang et al., 2025b (https://arxiv.org/html/2605.20201#bib.bib4); Bakouchi et al., 2025 (https://arxiv.org/html/2605.20201#bib.bib5); Mistral-AI et al., 2025 (https://arxiv.org/html/2605.20201#bib.bib6))。对于较小或非前沿模型，DeepSeek 进一步表明，通过 SFT 在推理轨迹上从较大模型蒸馏推理模式 (Li et al., 2023 (https://arxiv.org/html/2605.20201#bib.bib15); Ho et al., 2023 (https://arxiv.org/html/2605.20201#bib.bib16)) 优于直接应用强化学习。因此，通过收集来自教师模型的轨迹来构建 SFT 推理数据集已成为标准做法(Guha et al., 2025 (https://arxiv.org/html/2605.20201#bib.bib7); Hugging Face, 2025 (https://arxiv.org/html/2605.20201#bib.bib9); Li et al., 2025b (https://arxiv.org/html/2605.20201#bib.bib8))。

然而，两种方法在应用于长上下文推理时都面临重大挑战。随着上下文长度增加，强化学习在训练期间需要对长序列进行大量采样，导致成本高昂。CoT 蒸馏避免了采样成本，但仍需在完整长上下文上查询大型教师模型以生成推理轨迹，这既耗时又计算密集。此外，即使是强大的教师模型也可能无法为困难的长上下文任务生成可靠轨迹。我们的方法通过使用代理上下文生成中间训练信号解决了这些限制，无需教师模型进行长上下文推理即可实现高效训练。

#### 长上下文语言模型

充分利用长序列的能力一直是语言模型面临的长期挑战(Liu et al., 2025 (https://arxiv.org/html/2605.20201#bib.bib38))。一个核心困难是在长序列上表示 token 位置。旋转位置编码（RoPE；Su et al. 2024 (https://arxiv.org/html/2605.20201#bib.bib22)）用旋转变换取代绝对位置嵌入，后续扩展（如 YaRN）重新缩放位置频率以支持更长的上下文而无需完全重新训练(Peng et al., 2024 (https://arxiv.org/html/2605.20201#bib.bib23))。另一个瓶颈是 Transformer 注意力的二次方成本。稀疏注意力模型（如 Longformer）通过将注意力模式限制在全矩阵的选定条目上减少计算，从而提升了预填充和推理效率(Beltagy et al., 2020 (https://arxiv.org/html/2605.20201#bib.bib31); Jiang et al., 2024 (https://arxiv.org/html/2605.20201#bib.bib30); Fu et al., 2024 (https://arxiv.org/html/2605.20201#bib.bib29))。许多当代长上下文 LLM 交错使用稀疏和全注意力层以平衡效率和质量(Dubey et al., 2024 (https://arxiv.org/html/2605.20201#bib.bib34); Yang et al., 2025a (https://arxiv.org/html/2605.20201#bib.bib13); Gemma Team, 2025 (https://arxiv.org/html/2605.20201#bib.bib12))。

许多现代 LLM 还包含长上下文特定的训练数据和后训练流程。例如，Qwen2.5-1M (Yang et al., 2025c (https://arxiv.org/html/2605.20201#bib.bib37)) 和 Qwen3 (Yang et al., 2025a (https://arxiv.org/html/2605.20201#bib.bib13)) 在预训练中使用合成长上下文数据，并进行针对长上下文的多阶段监督微调。类似地，OLMo 3 (Olmo et al., 2025 (https://arxiv.org/html/2605.20201#bib.bib40)) 包含精心策划的长上下文数据和合成聚合类任务。然而，由于长上下文监督的成本和评估挑战，此类训练通常针对通用的长上下文理解，而不是在下游任务上引发忠实、逐步的推理。

在本工作中，我们**重新表述**长上下文任务，使其能够收集高质量的推理轨迹（通过代理上下文），然后训练模型在条件于原始长上下文时重现这些轨迹。

## 3 ProxyCoT 训练

本节介绍 ProxyCoT，我们设计的两阶段训练框架，旨在增强问答中的长上下文推理。给定包含回答每个问题所需最少信息的代理上下文，ProxyCoT 采用教师-学生范式，包含如图2 (https://arxiv.org/html/2605.20201#S1.F2) 所示的两个阶段。在第一阶段，教师模型在**代理**上下文上生成高质量推理轨迹。在第二阶段，这些推理轨迹通过思维链蒸馏用于在相应的**长**上下文上微调学生模型。由于推理轨迹可以从大型现成模型或基于强化学习获得，ProxyCoT 有两种变体：ProxyCoT-ZS 和 ProxyCoT-RL（图2 (https://arxiv.org/html/2605.20201#S1.F2) 右侧）。

### 3.1 在短代理上下文上获取 CoT

对于任何长上下文问答任务，**代理上下文** \(C^p\) 表示长输入 \(C\) 的一个紧凑版本，保留了可回答性。代理上下文上的 CoT 应能迁移到对应的完整长上下文。形式上，我们将每个示例表示为问题-上下文对 \((q, C)\)，并带有真实答案 \(a\)。每个上下文都有一个对应的代理 \(C^p\)，后者显著更短（\(\|C^p\| \ll \|C\|\)），同时包含回答问题的足够信息。我们的目标是获得一个数据集 \(\mathcal{D} = \{(q_i, C_i^p, t_i, a_i)\}\)，其中包含在代理上下文条件下生成的推理轨迹 \(t\)。

#### 大型教师生成

我们查询一个大型现成教师模型 \(M^{\mathcal{ZS}}\) 以在代理上下文条件下生成推理轨迹：\(t \sim p_{\phi}(t \mid q, C^p)\)，其中 \(\phi\) 表示教师模型参数。我们只保留产生正确答案的轨迹，从而获得高质量演示。教师根据问题和代理上下文估计推理轨迹的分布。与在完整长上下文上生成轨迹相比，对更短代理的推理要快得多且更具成本效益。

#### 强化自我探索

如果没有可用的有能力的现成大型教师模型（例如，运行成本过高或在特定任务上表现不佳），我们直接使用可验证奖励的强化学习（RLVR）在代理上下文上训练目标模型 \(M_{\text{init}}\)。RLVR

基于代理上下文的链式思维微调长上下文推理

相似文章

训练连续思维链模型：两种机制的故事

有限监督下的链式思维推理再探讨：半监督链式思维学习

多样本思维链上下文学习：让上下文学习真正学会

推理微调诱导持续潜在策略状态

ACIL: 用于上下文学习的自动Chain-of-Thought

提交意见反馈