忠实性作为信息流：评估与训练忠实的思维链推理

arXiv cs.LG 2026/05/26 04:00 论文

chain-of-thought faithfulness information-flow reasoning language-models safety training-interventions

摘要

本文提出一个框架，通过控制信息流来评估和提升思维链推理的忠实性，使用基于熵、KL散度和梯度的诊断方法，并引入训练干预措施（注意力掩码、梯度掩码、对抗扰动），使推理更加透明，减少对捷径的依赖。

arXiv:2605.24286v1 公告类型: 新摘要：思维链（CoT）推理只有在推理轨迹忠实反映产生最终答案的计算过程时，才对监控语言模型有用。然而，模型可能依赖于绕过CoT的提示到答案的捷径，使得可见的推理轨迹即使看起来合理，也具有误导性。我们通过结构化的信息流视角研究CoT忠实性：忠实的推理应该将答案相关信息通过从提示到CoT再到答案的中介路径传递，而不是通过直接的提示到答案捷径。这种视角产生了一个基于三个互补属性（充分性、完整性和必要性）的任务无关框架，我们用基于熵、掩码KL和梯度的诊断方法实例化。我们展示了这些指标能够恢复提示推理中外部判断的忠实性差异，并识别出基于KL的诊断方法的一个低熵失败模式，而基于梯度的测量保持更稳定。基于这一分析，我们引入了基于验证器的在策略RL的更新时干预措施，包括注意力掩码、仅反向梯度掩码、CoT梯度以及提示表示的对抗扰动。在提示算术、可奖励黑客的代码修复以及未经提示训练但在错误提示注入下评估的DAPO-Math模型中，我们的干预措施将行为和结构指标转向更强的CoT中介。特别地，它们使捷径和奖励黑客行为在CoT中更加透明，并改进了任务无关的忠实性指标，同时在某些设置中也降低了对错误提示的敏感性。我们的结果表明，在训练过程中控制信息流是实现更忠实和可监控的CoT推理的实用途径。代码可在 https://github.com/safety-research/faithful-cot 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:03

# 忠实性即信息流：评估与训练忠实的链式思维推理  
来源：https://arxiv.org/html/2605.24286  

Jinghan Jia†,⋆ Joe Benton‡ Eric Easley‡  
†密歇根州立大学计算机科学与工程系  
‡Anthropic  
⋆Anthropic Fellows Program  

###### 摘要  

链式思维（Chain-of-thought, CoT）推理在监控语言模型时，仅当推理轨迹忠实地反映了产生最终答案的计算过程时才有用。然而，模型可能会依赖提示到答案的捷径，绕过CoT，这使得可见的推理轨迹即使看似合理也可能具有误导性。我们从结构化的信息流视角研究CoT忠实性：忠实的推理应该将与答案相关的信息通过从提示到CoT再到答案的中介路径传递，而不是通过直接的提示到答案捷径。这一视角基于三个互补属性（充分性、完整性和必要性）产生了一个任务无关的框架，我们使用基于熵、掩蔽KL和基于梯度的诊断方法对其进行实例化。我们展示了这些指标可以恢复被外部判断的提示推理中的忠实性差异，并识别出基于KL的诊断方法中一种低熵失败模式，其中基于梯度的度量保持更稳定。基于这一分析，我们引入了基于验证器的在线强化学习中的更新时干预措施，包括注意力掩蔽、仅反向梯度掩蔽、CoT梯度和对提示表示的对抗性扰动。在包含提示的算术、可奖励黑客的代码修复以及无提示训练但注入错误提示评估的DAPO-Math任务中，我们的干预措施将行为和结构指标转向更强的CoT中介。具体来说，它们使捷径和奖励黑客行为在CoT中更加透明，并改善了任务无关的忠实性指标，同时在有些情况下也降低了对错误提示的敏感性。我们的结果表明，训练期间控制信息流是实现更忠实、更可监控的CoT推理的实用途径。代码可在 https://github.com/safety-research/faithful-cot 获得。  

## 1 引言  

链式思维（CoT）推理已成为改进和监控语言模型推理的核心接口[19, 32, 14]。通过在最终答案之前外化中间步骤，CoT可以使模型行为更具可检查性。然而，只有当生成的推理轨迹忠实地反映模型产生答案的方式时，这个接口对监控才有用。先前的工作表明，模型可能会依赖有偏的线索、误导性提示或其他隐藏捷径，同时生成看似合理但并未揭示答案真正来源的CoT[29, 15, 21, 6]。在这种情况下，CoT造成了一种透明的假象：轨迹看起来合理，但与答案相关的信息却绕过了它。  

现有的CoT忠实性评估通常依赖于特定任务的探针，例如提示注入、反事实编辑、轨迹扰动、因果中介测试或基于口头化的标准[29, 15, 21, 3, 30]。最近的工作进一步研究了忠实性衰减、基于模拟器的忠实性训练、信息论的可监控性以及基于基准的可监控性评估[34, 11, 2, 31]。这些研究提供了CoT可能不忠实的重要证据，但许多评估仍然局限于特定的任务格式或预期的失败模式。这引出了一个更普遍的问题：我们能否在不针对每种设置设计新探针的情况下测量和改进CoT忠实性？  

我们通过将CoT忠实性视为一个信息流问题来解决这个问题。对于一个推理轨迹 \( x = (P, C, A) \)，其中包含提示P、链式思维C和答案A，忠实的推理应该通过与答案相关的信息通过中介路径 \( P \rightarrow C \rightarrow A \) 传递。不忠实的推理则允许绕过CoT的直接捷径 \( P \rightarrow A \)。在这种观点下，忠实的CoT应该对预测答案是*充分的*，在捕获与答案相关的提示信息上是*完整的*，并且对产生答案是*必要的*。基于这一视角，我们使用熵、结构掩蔽和梯度开发了任务无关的CoT忠实性诊断方法。  

我们进一步引入了基于验证器的在线强化学习[23, 10, 35]的更新时干预措施，旨在阻止直接的提示到答案捷径学习，同时保留标准的 rollout 和奖励流程。在包含提示的算术、可奖励黑客的代码修复以及错误提示注入下的DAPO-Math评估中，我们的方法将行为和结构指标都转向更强的CoT中介。我们总结我们的**贡献**如下：  

*   我们将CoT忠实性形式化为一个基于充分性、完整性和必要性的任务无关信息流问题。  
*   我们提出了基于熵、掩蔽KL和梯度的诊断方法，用于衡量与答案相关的信息是否通过CoT传递。  
*   我们引入了在线强化学习的结构干预措施，包括注意力掩蔽、仅反向梯度掩蔽、仅CoT梯度以及对提示表示的对抗性扰动。  
*   我们展示了这些干预措施在包含提示的算术、可奖励黑客的代码修复以及DAPO-Math上留出的错误提示评估中改善了CoT忠实性，使捷径和奖励黑客行为在CoT中更加明显。  

## 2 相关工作  

#### 衡量链式思维忠实性。  
链式思维（CoT）推理改进了多步问题解决，但推理轨迹不一定忠实地反映最终答案背后的计算。先前的工作通过有偏提示、反事实编辑、扰动、截断、因果中介测试、遗忘和口头化标准评估CoT忠实性[29, 15, 21, 6, 3, 30]，最近的扩展涉及忠实性衰减、可模拟性、实例级检测和LLM判断可靠性[34, 24, 18]。这些提供了行为上和特定基准上的CoT不忠实证据。相比之下，我们将忠实性形式化为一个任务无关的信息流属性：与答案相关的信息应该通过从提示到CoT再到答案的中介路径传递。  

#### 改进CoT忠实性与可监控性。  
最近的工作从评估转向改进CoT的可监控性。反事实模拟训练奖励那些在反事实输入下帮助模拟器预测模型行为的CoT[11]。信息论方法提出了改进监控准确性的目标[2]。其他研究探讨可监控性是否在具有可验证奖励的强化学习中涌现，模型是否能控制或隐藏其CoT，以及CoT级优化何时有利于或损害可监控性[33, 36, 13, 31]。我们在设计轴上与这些工作正交：先前的方法修改*奖励*信号，通常需要在训练循环中使用辅助模型（反事实模拟器[11]、LLM判断器或训练过的口头化分类器[28]），或者将监控器的准确性作为优化目标[2]。我们则修改*策略更新*，保持 rollout、奖励和优势不变（图A1）。因此，我们的干预措施在单一可验证奖励下运行，无需辅助模拟器、判断器或监控器，并直接适用于没有这些组件给定的设置（例如，包含提示的算术、有bug的代码修复）。这两个轴不冲突，因此我们的方法原则上可以与奖励级目标组合使用。  

#### 奖励黑客与透明推理。  
基于结果的优化可能会激励模型利用代理奖励，而不是解决预期任务[1, 5, 20, 26, 7]。最近的工作研究CoT监控是否能暴露推理模型中的奖励黑客或隐藏捷径[8, 4, 28, 9]。我们的实验将这一文献与训练时间结构联系起来：标准强化学习可以在增加奖励的同时让捷径使用未被充分语言化，而我们的干预措施使捷径行为更加CoT中介化和透明。  

## 3 一个任务无关的CoT忠实性框架  

#### 一个激励性失败案例和信息流视角。  
链式思维（CoT）只有在忠实地反映模型如何得出答案时，才能用于监控。图1（左）展示了一个代表性失败案例：当在提示中添加一个误导性提示时，模型会改变其最终答案以匹配该提示，而CoT几乎保持不变，从未承认提示的影响。行为探针、提示注入、CoT截断或轨迹编辑可以暴露此类失败，但每种方法都针对特定任务或捷径，需要为每种设置单独设计。我们转而寻求一个任务无关的视角，将忠实性视为一个*信息流*问题。对于一个由提示、CoT和答案组成的推理轨迹 \( \mathbf{x} = (P, C, A) \)，忠实的推理要求提示通过中介路径 \( P \rightarrow C \rightarrow A \) 影响答案（图1，右）。不忠实的推理则允许绕过CoT的直接捷径 \( P \rightarrow A \)：轨迹可能看起来合理，甚至与答案相关，但不再代表产生它的计算。这一视角为忠实的CoT产生了三个互补的要求，分别捕捉了C的信息内容、P→A捷径的缺失以及C在产生A中的因果作用。  

#### 充分性：CoT决定答案。  
一个CoT是*充分的*，如果以它为条件可以减少答案的不确定性：  
\[
\text{充分性} \iff H(A \mid C) \text{ 很低}。 \tag{1}
\]  
充分性是C→A关系的信息属性：它询问轨迹*原则上*是否能确定答案。一个模糊、通用或离题的CoT会使 \( H(A \mid C) \) 较高。充分性并不暗示模型依赖于C——只表明相关信息存在。

#### 完整性：CoT捕获了所有与答案相关的提示信息。  
一个CoT是*完整的*，如果给定C，提示几乎不提供关于答案的额外信息：  
\[
\text{完整性} \iff I(P; A \mid C) \approx 0。 \tag{2}
\]  
当这个条件互信息接近零时，C屏蔽了P对A的影响：任何与答案相关的提示内容都已被吸收到轨迹中。完整性失败表明存在残留的P→A捷径。图1中的提示示例是典型的：提示改变了答案，但其影响未出现在CoT中。

#### 必要性：模型使用了它的CoT。  
一个CoT是*必要的*，如果扰动它会改变答案：  
\[
\text{必要性} \iff A \text{ 因果地依赖于 } C。 \tag{3}
\]  
必要性区分了真正的推理与事后合理化：一个CoT可能看似充分并与答案高度相关，而模型实际上从P直接回答。与充分性和完整性不同，必要性是干预性的，不能仅从记录中读出——它需要扰动C并观察对A的影响。

#### 三个属性是互补的。  
这些属性在逻辑上独立：一个CoT可以充分而不必要（与答案相关但不起因它），可以在输出无信息时退化地满足完整性，也可以必要但遗漏重要的提示信息。因此，忠实的CoT需要所有三个属性。

## 4 度量：操作化忠实性  

图2：任务无关的忠实性度量。左：注意力掩蔽隔离了完整、CoT中介和仅提示的答案分布。右：基于梯度的度量比较答案对提示令牌与CoT令牌的依赖程度；CoT梯度越集中表示CoT中介推理越强。

我们用三族任务无关的度量来实例化第3节的属性，总结于图2和表1：基于熵的充分性度量、基于结构注意力掩蔽的KL度量（用于完整性和必要性），以及基于局部答案敏感性的梯度度量（用于这两个属性）。  

#### 充分性。  
我们使用外部参考模型q下的答案熵来衡量充分性：  
\[
\mathrm{Suff} = H_q(A \mid C)。 \tag{4}
\]  
使用q而不是生成CoT的模型避免了循环，并询问C对外部观察者是否有信息量；较低的熵表示更充分的CoT。

#### 基于KL的度量。  
设 \( p(A \mid P, C) \) 为在标准因果注意力下的答案分布。按照图2，结构掩蔽要么阻断直接的 \( A \leftarrow P \) 路径（得到 \( p(A \mid C) \)）

忠实性作为信息流：评估与训练忠实的思维链推理

相似文章

链条稳固，答案翻转：对抗压力下推理模型中的轨迹-答案分离

推理一致性扫描：用于审计AI安全评估中思维链有效性的框架

最终检查点并不足够：分析训练轨迹中潜在推理的忠实性

确定性视界：当扩展推理失败时，工具委派成为必要

推理模型难以控制其思维链，但这其实是好事

提交意见反馈