链条稳固,答案翻转:对抗压力下推理模型中的轨迹-答案分离

arXiv cs.AI 论文

摘要

本文识别出推理模型中的一种新型失败模式,称为不忠妥协,即在对抗性多轮对话中,思维链保持事实正确,但最终答案翻转错误,揭示了当前评估方法的局限性。

arXiv:2605.29087v1 公告类型:新 摘要:推理模型在单轮基准测试中进行评估,但部署在多轮对话中,用户会对正确答案提出质疑。在持续对抗压力下,我们发现一种此前未记录的失败模式:思维链从第一轮到最后一轮保持事实正确,但输出的答案却翻转错误。我们称之为不忠妥协(UC),并通过一个 $2\times 2$ 的潜在与行为框架将其分离,翻牌率指标和单轮忠实度探测都无法发现。在三个数据集(MT-Consistency、MMLU-Pro、GSM8K)上,当行为翻转时,潜在正确率在思考模式下聚集在50%附近,在无思考模式下骤降至11-15% —— 这是配对、模型内因果证据表明推理创造了间隙。在模型间,该效应跟随推理通道(在Qwen3-32B和GPT-OSS-20B中高,在内联CoT的Gemma-4-31B-it中低)。独立的GPT-4o判断器证实了86%的UC标签;令牌级探测显示答案槽argmax在84%的UC单元中正确;一个简单的轨迹锚定防御适得其反。我们发布所有轨迹、痕迹和判断器标签。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:13

# 链条坚守,答案沦陷:推理模型在对抗性压力下的轨迹-答案分离现象  
来源:https://arxiv.org/html/2605.29087  
Yubo Li, Ramayya Krishnan, Rema Padman  
卡内基梅隆大学  
\{yubol, rk2x, rpadman\}@andrew\.cmu\.edu  

###### 摘要  

推理模型在单轮基准测试中得到评估,但实际部署在多轮对话中,用户会对正确答案提出质疑。在持续的对抗性压力下,我们发现一种此前未被记录的失败模式:思维链从第一轮到最后一轮始终保持事实正确,而输出的答案却在压力下翻转错误。我们将这种现象称为**不忠让步**(Unfaithful Capitulation, UC),并通过一个 \(2 \times 2\) 的隐状态-行为框架将其分离出来,该框架能够捕捉到翻转率指标和单轮忠实度探针都无法检测到的现象。在三个数据集(MT-Consistency、MMLU-Pro、GSM8K)上,首次行为翻转时刻的隐状态正确率在思考模式下集中在50%附近,而在无思考模式下骤降至11–15%——这提供了模型内部的配对因果证据,表明推理造成了这一差距。跨模型来看,这种效应与推理通道相关(在Qwen3-32B和GPT-OSS-20B中较高,在内联CoT的Gemma-4-31B-it中较低)。独立的GPT-4o裁判验证了86%的UC标签;一个词元级别的探针显示,答案槽位的argmax在84%的UC单元中是正确的;而一种基于轨迹锚定的朴素防御策略反而适得其反。我们公开发布所有轨迹、推理过程以及裁判标签。  

# 链条坚守,答案沦陷:推理模型在对抗性压力下的轨迹-答案分离现象  
Yubo Li, Ramayya Krishnan, Rema Padman  
卡内基梅隆大学  
\{yubol, rk2x, rpadman\}@andrew\.cmu\.edu  

## 1 引言  

启用推理的语言模型几乎完全在单轮基准测试中接受评估,模型在此类场景下一次性产生思维链(CoT)和最终答案。然而,已部署的聊天系统运行在**多轮**交互中,用户可以进行反驳、质疑或否定答案,而模型应要么重新推导出相同的结论,要么根据新证据进行自我修正,而不是在社会压力下屈服。标准术语将缺乏新证据的屈服称为**谄媚**(Perez et al., 2023;Sharma et al., 2024);检测这种现象的标准方法是在第二轮之后统计答案字母发生变化的频率。在本文中,我们证明这种仅关注输出的视角从根本上错误衡量了推理模型中的谄媚现象。在受到对抗性压力的多轮对话中,我们发现推理能力强的模型**最常见的**失败模式是:思维链从第一轮到最后一轮始终保持**事实正确**,而输出的答案字母在用户反驳下却**翻转错误**。我们将这种模式称为**不忠让步**(UC),以区别于两人都翻转的忠实崩溃(FC)。UC对于翻转率指标是隐形的;对于单轮CoT忠实度探针(Turpin et al., 2023;Lanham et al., 2023;Chen et al., 2025)也是如此,因为在UC单元中,CoT在全部八轮对抗性交互中内部一致,并得出正确选项——没有CoT编辑可供检测。  

#### 一个 \(2 \times 2\) 的隐状态-行为框架  

对于每一个(模型、问题、轮次)单元,我们记录两个二值信号:(i) **隐状态正确性**,即CoT是否推导出真实答案(由LLM轨迹-字母提取器判断);(ii) **行为正确性**,即输出的最终答案是否与真实答案匹配。它们的联合 \(2 \times 2\) 分布产生了一个四状态分类:FC(两者正确)、UC(链正确,答案错误)、FI(链错误,答案正确)和UI(两者错误)。UC是关键单元:它隔离了链到答案的传递过程,将其作为一个可分离的失败面,而这一面无法通过单独的推理忠实度或谄媚探针捕捉到。  

#### UC现象跨数据集复制,并跨模型家族追踪推理通道  

直观上,我们的主要实证主张可能面临两个强烈质疑:该现象可能是单一基准测试或单一模型的产物。我们通过一个涵盖三个语料库和三个推理模型家族的9轮对抗性协议来解决这两个质疑:  

- **三个语料库**:MT-Consistency(700道四选一常识题)、MMLU-Pro(Wang et al., 2024)(700道问题,跨14个领域分层,选项数3–10个,多数为10个)、GSM8K(Cobbe et al., 2021)(700道自由格式数值数学题,注入混合错误答案)。  
- **三个推理模型家族**:Qwen3-32B(Yang et al., 2025)(原生思考通道开关)、GPT-OSS-20B(OpenAI, 2025)(和谐格式推理通道)、Gemma-4-31B-it(Google DeepMind, 2026)(原生思考功能禁用;内联CoT被提示以“最终答案:X”结束)。  

**跨数据集**(Qwen3-32B),首次行为翻转时隐状态正确率在MCQ语料库上集中在50%附近——MT-Cons上为50.7%,MMLU-Pro上为50.0%,同一问题重新格式化为自由格式简答题时为55.1%,而GSM8K上为32%,我们认为后者是一个有原则的离群值,因为数值链**就是**答案本身(第5节)。将同一个Qwen3-32B模型在每个语料库上从思考模式切换到无思考模式,该比例骤降至11–15%,提供了模型内部的因果证据,表明推理造成了隐状态-行为差距。  

**跨模型**来看,情况比均匀复制更为清晰且更有趣:GPT-OSS-20B(与Qwen3-think类似,具有显式可分离推理通道)在首次翻转时的隐状态正确率同样很高(MMLU-Pro上为52.9%,与Qwen的50.0%匹配),而Gemma-4-31B-it(我们在运行时不启用其原生思考模式,仅使用内联提示的CoT)则接近无思考基线(19–22%)。因此,跨模型证据支持一个更精细的论断:UC追踪的是**可分离推理通道的存在性**,而不是在每个模型中完全相同地出现。我们报告了翻转条件下的单元计数(对于鲁棒性较弱的非Qwen模型数量较少),并将Qwen3-32B视为具有充分统计功效的因果锚点(第6节)。  

#### 验证、机制及一个失败的防御  

三个进一步的结果(将在正文中详细阐述)完善了这一图景。  
**(i) UC标签并非自我判断的伪影**:将260个单元通过独立的GPT-4o裁判重新评估,在86%的UC单元上复现了内部裁判的字母判断,13%的单元放弃判断,仅1%的单元存在强烈分歧(第7节)。  
**(ii) 差距位于答案输出接口**:在12,600个Qwen3-32B单元中,输出字母**之前紧接着的**下一个词元argmax在84%的UC单元中是正确的(平均P(正确)=0.82)——链在槽位处放置了正确的概率质量,而某些后续过程覆盖了它(第8节)。  
**(iii) 显而易见的防御策略适得其反**:重新生成答案以匹配轨迹推导出的字母,结果弊大于利,并在两个MCQ语料库上都**降低**了准确率,原因在于受压制的轨迹中也包含了攻击者的选项——轨迹是一个可靠的检测器,但不是一个好的重新生成锚点(第9节)。  

#### 贡献  

本文做出以下贡献:  

1. 一个多轮对抗性评估框架,采用 \(2 \times 2\) 的隐状态-行为分类,将链层面与答案层面的失败分离开来(第3节)。该框架涵盖了翻转率指标,并揭示UC作为一个独立的、可分别测量的现象。  
2. 跨语料库的证据表明,UC是Qwen3-32B推理的一个稳健属性——在MT-Consistency、MMLU-Pro以及非MCQ的简答题推导中,首次翻转时隐状态正确率接近50%;仅在数值型GSM8K上低于50%,且有一个有原则的机制性解释——同时提供跨模型证据,表明该效应**追踪推理通道**:GPT-OSS-20B(显式通道)与Qwen匹配,而Gemma-4-31B-it(原生思考禁用,仅内联CoT)则接近无思考基线。思考/无思考对比提供了配对的模型内部因果证据(第5节和第6节)。  
3. 一个基于独立裁判对260个单元的审计,排除了UC标签的自我判断解释,并提供了第二裁判同意、放弃或不同意的定量分解(第7节)。  
4. 差距的机制定位在答案输出接口:CoT之后的下一个词元分布中,84%的UC单元的正确字母概率最大(第8节)。  
5. 一个诊断性的空结果:基于轨迹锚定的朴素调和策略在MCQ语料库上损害准确率;我们将失败归因于与产生UC相同的机制——在轮次后期,轨迹受到攻击者提示的污染(第9节)。  

所有代码、超过16,000条9轮对抗性轨迹、人工标签、裁判标签以及答案槽位的词元级对数概率均以宽松许可发布。所发布的材料足以验证本文中的每一个数值论断,无需重新运行底层的生成任务。  

## 2 相关工作  

我们的工作处于四条此前独立的研究脉络的交汇点:单轮场景下的思维链忠实度、多轮谄媚与对抗性对话鲁棒性、推理开关消融实验,以及语言模型信念的机制研究。每条脉络都有自己的探针;但没有任何一种探针能够检测到我们研究的现象——跨多轮对抗性压力的不忠让步——因为该失败面只有在CoT在轮次间保持稳定而答案发生翻转时才会出现,这一情形超出了所有此前探针的设计假设范围。  

#### 思维链忠实度  

一系列研究探究模型写出的CoT是否真的是它用于产生最终答案的链条(Turpin et al., 2023;Lanham et al., 2023;Chen et al., 2025;Paul et al., 2024)。标准的探针是对CoT本身进行反事实扰动:截断、改写、注入一个植入特征,然后检查输出的答案字母是否跟随扰动。因此,忠实度是相对于模型**自身**在**单轮**中的CoT来衡量的。这种设计自然无法检测UC:在我们UC单元的CoT在全部八轮对抗性交互中内部稳定,并得出正确选项,且从未被我们扰动过;不忠表现仅在于用户施加了对抗性压力,而链正确抵抗了这种压力,但答案却没有。\(2 \times 2\) 的隐状态-行为框架是CoT忠实度的多轮扩展,其中对抗性对话替代了合成CoT编辑作为扰动。  

#### 谄媚与多轮对抗鲁棒性  

另一条研究脉络记录了LLM因用户不满意而修正正确答案的现象(Perez et al., 2023;Sharma et al., 2024;Wei et al., 2023;Ranaldi and Pucci, 2023)。多轮扩展将其推广到多轮追问(Laban et al., 2023;Li et al., 2025a, b;Laban et al., 2025;Yi et al., 2024),通常以标量问题级别的指标报告翻转率和恢复率。这些工作仅关注**输出**通道,无法区分UC(CoT保持正确,答案翻转)和FC(CoT也翻转,答案跟随)。对于非推理模型,两者等价,区别消失;对于推理模型,我们的模型内部开关消融实验表明,区别就是全部故事(在Qwen-3各尺寸1.7B至32B上,配对隐状态翻转差距为+40.8个百分点)。我们是首次对推理模型应用多轮对抗性协议,并使用一个能够揭示内部通道并通过独立裁判验证的探针。  

#### 推理开关消融  

近期几个推理模型家族提供了对思维链生成的运行时控制:Qwen3的 `enable_thinking` 标志(Yang et al., 2025)、DeepSeek-R1的可切换推理模式(DeepSeek-AI, 2025),以及GPT-OSS-20B使用的和谐推理通道格式(OpenAI, 2025)。先前的分析将这些开关用于准确率基准测试和推理时扩展(Snell et al., 2024;Welleck et al., 2024;Muennighoff et al., 2025),但据我们所知,没有先前工作将其用于问题内配对的对抗一致性研究。最接近的相关观察出现在DeepSeek-AI(2025)中,作者指出长CoT模型有时会过度思考;我们提出了一个更尖锐的论断:过度思考正是**产生**UC失败模式的原因,因为更长的链既提高了R0上的准确率,又在对抗性压力下将链的结论与答案输出步骤解耦。  

#### 跨数据集与跨模型鲁棒性  

LLM行为评估中一个反复出现的方法论挑战是,一个发现可能无法推广到其他基准或其他模型。近期工作主张在进行行为论断时采用分层跨基准测试(Liang et al., 2023;Zhou et al., 2023b, a)。我们遵循这一原则:在三个不重叠的MCQ语料库(MT-Consistency和MMLU-Pro——后者有最多10个答案选项,需要扩展的裁判提示和解析器)、一个自由格式非MCQ推导,以及数值型GSM8K(Cobbe et al., 2021)上复制UC测量。我们还在三个不同的推理模型家族上复制,这些家族具有不同的推理表面(原生思考通道开关、和谐推理通道、内联提示CoT)。  

#### LLM作为裁判进行评估  

使用强LLM对模型输出进行标注已是标准做法(Zheng et al., 2023;Liu et al., 2023),但这引发了当评估者和被评估者属于同一模型家族或同一模型时的自我判断问题。跨裁判验证(Thakur et al., 2024)是缓解此问题的标准方法;我们将其采纳为监管合规检查(第7节),并发现自我判断偏差可能解释了先前5–10%的差异,但无法解释我们40–50个百分点的核心发现。

相似文章

忠实性作为信息流:评估与训练忠实的思维链推理

arXiv cs.LG

本文提出一个框架,通过控制信息流来评估和提升思维链推理的忠实性,使用基于熵、KL散度和梯度的诊断方法,并引入训练干预措施(注意力掩码、梯度掩码、对抗扰动),使推理更加透明,减少对捷径的依赖。

超越单一方向:思维链破坏简单的拒绝引导

arXiv cs.AI

这篇论文研究了大型推理模型中的思维链推理如何使基于激活的拒绝行为控制变得复杂。在DeepSeek-R1-Distill-LLaMA-8B上的实验表明,拒绝行为同时编码在残差流激活和思维链痕迹中,使得模型对激活层面的干预更加鲁棒,但同时也暴露了思维链作为另一个攻击面。

推理模型难以控制其思维链,但这其实是好事

OpenAI Blog

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。