在答案正确的长CoT训练轨迹中诊断有害延续

arXiv cs.AI 论文

摘要

本文研究了长思维链(CoT)训练轨迹中的一种有害现象,即结论后延续会降低训练效用,并提出了一种名为HarmfulContinuationCut(HCC)的诊断方法来检测此类有害延续。

arXiv:2605.29288v1 Announce Type: new 摘要:长思维链(CoT)轨迹被广泛用作面向推理的LLM SFT的监督信号,然而答案正确的轨迹仍可能导致显著不同的微调结果。我们研究了答案正确的长CoT数据中的结论后延续:一种延续,其中答案看起来已得到充分支持,但轨迹继续包含额外的推理,且这些推理仍保留在监督目标中。为了测试其训练效果,我们使用仅删除的编辑器构建了保留答案的后缀移除,并比较了基于CoT的SFT在原始和处理后的轨迹上的效果。我们观察到在移除编辑器识别的结论后延续后,SFT结果有所改善,表明这种延续在我们的设置中对训练是有害的。因此,我们将这一经实验验证的现象称为有害延续。除了这一干预措施,我们还通过不确定性和隐藏状态进展进一步刻画了被移除的结论后延续。我们观察到持续的局部不确定性以及减弱的方向性进展,形成了不确定性-几何不匹配。最后,我们实现了Harmful Continuation Cut (HCC),一种轻量级的边界代理,它近似于编辑器识别的结论后延续边界。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:16

# 诊断答案正确长思维链训练痕迹中的有害延续  
来源:https://arxiv.org/html/2605.29288  

陈赫¹\*,吴宇浩²\*,王磊³,张文轩²,申福民¹†  
¹电子科技大学  
²新加坡科技设计大学  
³新加坡管理大学  
\*同等贡献  
†通讯作者  

###### 摘要  
长思维链(CoT)痕迹被广泛用作面向推理的LLM SFT的监督信号,然而,答案正确的痕迹仍可能导致显著不同的微调结果。我们研究答案正确长CoT数据中的结论后延续:即答案已得到充分支持,但痕迹继续包含额外推理,且这些推理仍保留在监督目标中。为了测试其训练效果,我们使用一个仅做删除操作的编辑器来构建保留答案的后缀移除,并比较基于CoT的SFT在原始痕迹和处理后痕迹上的表现。我们观察到,移除编辑器识别出的结论后延续后,SFT结果有所改善,这表明在我们设定的条件下,这种延续对训练是有害的。因此,我们将这种经验上得到支持的现象称为“有害延续”。除了这种干预,我们还通过不确定性和隐藏状态进展来表征被移除的结论后延续。我们观察到持续存在的局部不确定性,同时终端方向进展减弱,形成了不确定性-几何不匹配。最后,我们实现了HCC(有害延续裁剪),一个轻量级的边界代理,用于近似编辑器识别出的结论后延续边界。  

# 诊断答案正确长思维链训练痕迹中的有害延续  

## 1 引言  
长思维链痕迹已成为推理模型(Wei et al., 2022; Luo et al., 2025b; Ou and Yin, 2025)的重要训练目标。它们不仅用于监督微调(Ou and Yin, 2025),还用于面向推理的持续训练,以及在强化学习之前作为冷启动数据(Wang et al., 2026)。与最终答案注释不同,长CoT痕迹暴露了完整的推理轨迹,模型在训练中会被鼓励去模仿这些轨迹。这使得CoT痕迹质量成为推理训练的核心问题,因为训练目标不仅规定了要生成什么答案,还规定了什么轨迹应被视为可学习的推理行为。  
先前的工作已经表明,答案正确的CoT痕迹在训练效用上可能存在显著差异。来源轨迹的风格和结构会影响SFT模型的泛化能力(Tian et al., 2025; Zhang et al., 2025; Li et al., 2025),最近的研究进一步将痕迹兼容性、推理模式和可学习性与下游结果联系起来(Liu et al., 2026; Li et al., 2026)。然而,大多数现有方法仍局限于痕迹选择、前缀选择或外部引导的重写,这导致对答案正确痕迹的内部失效模式解释不足。因此,它们未能描述有用的推理可能在哪里结束或开始,也未能解释为什么这样一个阶段在保持答案正确的同时可能与较弱的SFT相关。  
为了填补这一空白,我们对答案正确的长CoT痕迹采取诊断性视角。我们寻求一种痕迹内部的诊断性解释,来说明为什么答案正确的痕迹可能在训练效用上存在差异,而不是假设只要最终答案正确,长推理痕迹就是均匀有用的。我们的目标不是声称所有的长尾巴都是有害的,也不是将长度视为核心问题。相反,我们询问是否某些痕迹会进入一个低价值的结论后延续:答案已得到充分支持,但后续推理在局部上代价高昂,同时显示出微弱的隐藏状态进展。  
从不确定性的角度来看,我们观察到一些结论后延续在局部上仍然代价高昂或不稳定,这表明在基于评估器的答案支持已经基本饱和后,痕迹仍在继续探索。从几何角度来看,这种持续的探索显示出减弱的终端方向隐藏状态进展。我们在评估其下游训练效果之前,将这种假设的低价值阶段称为“结论后延续”。当保留答案地移除这种延续能够改善SFT结果时,我们将这种经验上支持的、不利于训练的情况称为“有害延续”。  
为了检验这种结论后延续的训练相关性,我们使用一个仅做删除操作的编辑器作为操作性干预工具。该编辑器不重写痕迹;它仅移除结论后的后缀,同时保留原始前缀和最终答案。这使我们能够测试保留答案地移除结论后延续是否有助于改善SFT结果。受这一诊断的启发,我们实现了HCC(有害延续裁剪),一个轻量级的边界代理。HCC使用一个冻结的Qwen2.5-0.5B-Instruct主干网络,带有一个裁剪头,用于提取句子级别的推理状态并近似编辑器识别出的结论后延续边界。  
我们的贡献可总结如下:  
- 我们提出了答案正确长CoT痕迹中的结论后延续概念,而不预先假定其固有有害性。  
- 我们通过保留答案的后缀移除表明,在我们设定的SFT条件下,被移除的延续不利于训练。  
- 我们通过不确定性-几何不匹配来表征被移除的延续,并提出HCC作为移除它的代理方法。  

## 2 相关工作  
**长CoT推理训练。** 长CoT痕迹已成为后训练流程的重要组成部分。虽然早期流程常将答案正确的痕迹视为可直接使用的监督信号,但近期研究表明,正确性本身并不能决定其训练价值。关于数据选择、痕迹兼容性和信息对齐的工作(Yang et al., 2026; Zhang et al., 2025; Chandra et al., 2025)表明,只有部分答案正确的痕迹能提供有益的监督。其他方法通过序列截断、前缀优化、自适应前缀对齐、对部分推理的鲁棒性或长度感知训练来修改或缩短推理痕迹(Chen et al., 2025a; Sun et al., 2026; Liu et al., 2026; Silvestri and Cetin, 2026; Xu et al., 2025; Luo et al., 2025a; Ma et al., 2025)。然而,这些方法主要采用启发式方式操作。它们并没有直接描述有用推理可能在哪里结束、无用推理可能在哪里开始,也没有解释为什么这种推理在答案正确的情况下仍可能与较弱的SFT监督相关。  
**长CoT轨迹的性质。** 近期工作越来越多地将长CoT痕迹视为结构化的推理轨迹,而非扁平的文本序列。关于“过度思考”的研究表明,长推理模型可能会反复验证中间结论或延续推理而无实质增益(Chen et al., 2025b)。补充性分析探讨了全局推理模式、轨迹几何以及有助于实际进展的步骤级锚点(Jiang et al., 2025; Ballon et al., 2026; Bogdan et al.; Yang et al., 2025)。与我们动机最相关的是,Li et al. (2026) 将轨迹属性与下游SFT结果联系起来,并表明不同的推理模式会导致不同的泛化行为。我们的工作建立在这种轨迹级视角之上,但聚焦于答案正确痕迹内部的结论后延续:即在局部仍然不确定或代价高昂,同时显示出减弱的终端方向进展的这种延续。  

## 3 结论后延续的操作性划分与诊断  
### 3.1 数据构建  
在本节中,我们并不假设编辑器移除的句子是真实的有害延续。相反,我们使用仅做删除操作的编辑器来构建一个操作性划分,用于诊断结论后的后缀。由此产生的分组用于揭示可能存在低价值阶段的统计特征,而不是仅凭编辑器决策来定义有害性。  
我们使用Qwen3-235B-A22B-Instruct-2507 (Team, 2025) 和 DeepSeek-R1-V3.2 (Guo et al., 2025) 来生成轨迹,并从OpenR1-Math-220k数据集中采样了4,780条答案正确的长CoT解题轨迹。这些轨迹作为原始的CoT训练痕迹。为简便起见,我们用 \(T_Q\) 和 \(T_R\) 分别指代来自这两个模型的轨迹集。  
然后,我们使用Qwen3.5-27B (Team, 2025) 作为一个仅做删除操作的离线编辑器,以暴露结论后延续用于实证分析。给定来自 \(T_Q\) 或 \(T_R\) 的一条轨迹,编辑器标记出那些在保留恢复最终答案所需推理的前提下可以被移除的结论后句子。  
参见图标题  
图1:随着推理片段逐步添加,基于评估器的不确定性诊断:(a) 保留的推理 (b) 编辑器移除的延续。  

#### 操作分组。  
我们将每条编辑后的轨迹分为两个操作分组。第一组是“保留的推理”,即编辑器保留的支持最终答案的部分。第二组是“编辑器移除的延续”,即被离线编辑器标记为可移除的结论后延续。在此阶段,这些术语指的是操作分组,而非预定义的理论标签。  

### 3.2 不确定性视角  
在本节中,我们旨在回答以下问题:结论后延续是否持续改善基于评估器的最终答案可恢复性,还是答案支持似乎已经饱和,而局部不确定性仍然很高?  

**比较协议。**  
我们在答案级别和句子级别分析不确定性。在答案级别,我们沿着同一完整响应轨迹逐步追加推理句子,并计算前缀条件下的最终答案熵和NLL。这些数量应被解释为基于评估器的答案可恢复性诊断,而非因果推理贡献的直接度量。对于分段的可视化,位置在保留推理和随后的编辑器移除延续内部分别进行归一化。在句子级别,我们使用句子熵和句子NLL来度量局部预测难度。对于边界级别的分析,我们跟踪 \(K_1\)、\(K_T\)、\(C_1\) 和 \(C_T\),分别表示保留推理和编辑器移除延续的第一个和最后一个句子,并比较局部不确定性变化和答案NLL的减少。详细协议见附录。  
参见图标题  
参见图标题  
图2:在编辑器识别出的结论后延续边界附近的诊断变化:(a) 句子熵,(b) 熵变,(c) 句子NLL,(d) 答案NLL减少变化。  
参见图标题  
图3:保留推理和编辑器移除延续的操作性隐藏状态进展:(a) 令牌归一化隐藏位移的ECDF,(b) 隐藏位移与正向进展的关系。  

**答案不确定性动态。**  
图1展示了随着推理句子逐步追加到同一完整响应中,答案级别不确定性如何变化。为便于可视化,x轴在其对应的段内进行了归一化,图1(a)显示保留推理,图1(b)显示随后的编辑器移除延续。在保留推理中,答案熵呈非单调变化,但并未表现出持续增加,而答案NLL随着更多有用推理的加入而稳步下降。这表明,即使中间推理涉及局部探索或验证,保留的片段也能改善基于评估器的最终答案可恢复性。相反,一旦痕迹进入编辑器移除延续,随着更多结论后内容被追加,答案熵和答案NLL都会增加。这表明,延续并没有一致地改善基于评估器的答案可恢复性,而是在答案被充分支持后引入了一个更高不确定性的状态。  

表1:编辑器移除延续与保留推理之间操作性隐藏状态进展的逐样本配对比较。配对差异定义为 \(\Delta = \text{移除延续均值} - \text{保留推理均值}\)。  

**边界级别的不匹配。**  
图2研究了保留推理与编辑器移除延续边界处的局部不确定性和基于评估器的答案支持变化。从 \(K_1\) 到 \(K_T\),句子熵和句子NLL增加,但答案NLL减少也变得更加强烈,这表明保留推理中的局部不确定性在评估器下仍可能伴随着答案可恢复性的改善。从 \(K_T\) 到 \(C_1\) 的过渡则显示出不同的模式。局部不确定性在编辑器移除延续开始时上升,而答案支持增益不再对应增加。从 \(C_1\) 到 \(C_T\),这种高不确定性区间得以维持或放大,但延续并没有提供稳定的额外答案NLL减少。因此,当增加的局部预测难度不再与基于评估器的最终答案可恢复性的一致改善相匹配时,候选的低价值模式便出现了。  

### 3.3 几何视角  
在不确定性分析之后,另一个问题随之出现:结论后延续增加的预测不确定性是否转化为有效的隐藏状态进展?  

**比较协议。**  
借鉴先前关于Transformer隐藏表示几何结构(Valeriani et al., 2023; Gurnee and Tegmark, 2024)以及长CoT推理轨迹级分析(Jiang et al., 2025)的工作,我们使用句子边界的隐藏状态作为推理状态演变的操作性代理。具体来说,隐藏位移衡量连续推理步骤之间表示变化的大小,而正向进展衡量

相似文章

关于监控文档的训练导致 CoT 混淆

arXiv cs.LG

本文证明,在描述思维链监控的文档上训练的模型能够学会隐藏其推理过程以逃避检测,对基于 CoT 的对齐技术构成风险。

基于代理上下文的链式思维微调长上下文推理

arXiv cs.CL

提出ProxyCoT训练框架,通过先在小代理上下文中获取链式思维推理轨迹(通过强化学习或蒸馏),再通过监督微调将其锚定到完整长上下文中,从而提升大语言模型的长上下文推理能力。实验表明,该方法在降低计算成本的同时持续优于基线。

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

arXiv cs.AI

This paper introduces a prefix-level trajectory evaluation protocol to distinguish harmful overthinking from verbose but harmless overthinking in large reasoning models, showing that continued reasoning after reaching the correct answer can destabilize performance. The authors find that early stopping improves accuracy by up to 21% on multimodal benchmarks, and identify logical drift and visual reinterpretation as key causes of correctness deviations.