超越单一方向:思维链破坏简单的拒绝引导

arXiv cs.AI 论文

摘要

这篇论文研究了大型推理模型中的思维链推理如何使基于激活的拒绝行为控制变得复杂。在DeepSeek-R1-Distill-LLaMA-8B上的实验表明,拒绝行为同时编码在残差流激活和思维链痕迹中,使得模型对激活层面的干预更加鲁棒,但同时也暴露了思维链作为另一个攻击面。

arXiv:2605.26772v1 公告类型:新 摘要:大型推理模型(LRM)在生成最终输出之前会生成思维链(CoT)痕迹,引入了一个动态的内部状态,这可能会使诸如拒绝之类的控制机制复杂化。与指令调优的LLM不同,拒绝行为在指令调优LLM中是通过单个方向性子空间调节的,而在大型推理模型(LRM)中,拒绝行为额外依赖于思维链。在DeepSeek-R1-Distill-LLaMA-8B中,当思维链保持不变时,激活引导仅在39%的情况下逆转拒绝行为,但完全移除思维链后,这一比例提高到70%,表明思维链积极强化了拒绝行为。在一个两阶段干预中,模型在激活引导下重新生成其思维链,拒绝行为在94%的情况下被逆转,而即使去除引导,仅保留生成的思维链仍保留了48%的效果。这表明思维链可以独立携带并重建顺从信号。这些发现表明,LRM中的拒绝行为同时编码在残差流激活和思维链中。这种联合激活使得LRM对单独的激活层面干预更加鲁棒,但将思维链暴露于可能的替代攻击面。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:07

# 超越单一方向:思维链颠覆拒绝机制的简单引导

来源:https://arxiv.org/html/2605.26772

###### 摘要

大型推理模型(LRMs)在生成最终输出之前会产生思维链(CoT)轨迹,引入了一种动态内部状态,可能使拒绝等控制机制复杂化。与指令调优的LLMs不同,后者的拒绝通过单一方向子空间进行中介,而大型推理模型(LRMs)中的拒绝还额外依赖于CoT。在DeepSeek-R1-Distill-LLaMA-8B中,当CoT保持固定时,激活引导仅在39%的情况下逆转拒绝,但完全移除CoT后这一比例上升到70%,表明CoT积极地强化了拒绝。在两阶段干预中,模型在激活引导下重新生成其CoT,拒绝在94%的情况下被逆转,而即使移除引导,重新生成的CoT本身仍保留了48%的效果。这表明CoT能够独立携带并重建服从信号。这些发现表明,LRMs中的拒绝是由残差流激活和CoT共同编码的。这种联合编码使得LRM对单纯的激活层干预更加鲁棒,但同时也将CoT暴露为一种可能的替代攻击面。

Machine Learning, ICML

## 1 引言

LRMs在生成最终输出之前会产生中间CoT推理轨迹,从而提升广泛任务上的性能,如DeepSeek(DeepSeek-AI,2025)和GPT-o1(OpenAI,2024)等模型所展示的那样。尽管LRMs因其对推理性能的影响而被广泛研究(Wei等人,2022;Wang等人,2022),但关于拒绝等安全相关行为如何被表征和控制,我们知之甚少,这限制了对当前对抗性攻击的理解以及稳健防御机制的发展。

在LLMs中,拒绝被描述为由残差流中单一方向中介的低维机制(Arditi等人,2024)。具体来说,该方向位于指令结束(EOI)标记处,沿此方向进行引导可以可靠地在服从与拒绝之间切换模型行为(Arditi等人,2024;Zhao等人,2025a)。尽管近期有尝试在LRMs中识别类似的“谨慎”方向(Yamaguchi等人,2025),但这些研究将CoT视为一个有待操控的被动介质,而未将其作为拒绝状态的主动中介机制进行分离。

我们通过应用基于激活的引导,在DeepSeek-R1-Distill-Llama-8B模型(DeepSeek-AI,2025;Meta AI,2024)上研究LRMs中拒绝如何被表征和控制,从而弥合这一差距。我们在来自JAILBREAKBENCH(Chao等人,2024)的100个有害指令上评估DeepSeek-R1-Distill-Llama-8B模型,这些指令在标准提示下均被拒绝,得到0%的基线服从率。通过将引导与模板标记在残差流中的激活方向相结合,并在不同的CoT条件下(即允许重新生成、完全抑制它或保持固定),我们分离出推理轨迹在中介拒绝中的因果作用。我们做出以下贡献:

- ▶ 我们证明CoT推理模型中的拒绝是由双信号机制中介的。仅使用模板标记的残差流激活方向(即EOI或思维结束(EOT))进行引导,只能获得有限的服从(39-43%)。然而,允许模型在相同引导下重新生成CoT,可将服从率提高到94%。而重复使用先前生成的服从CoT且不做进一步干预,则保留48%的效果。
- ▶ 我们提供直接证据表明CoT能够主动抵消基于激活的干预。完全抑制CoT比单独引导(43%)获得更高的服从率(70%),这表明CoT在生成过程中通过部分重建拒绝信号,积极地对抗引导干预。

## 2 相关工作

LLM中的拒绝机制。近期研究将拒绝描述为由残差流中单一“拒绝方向”中介的低秩现象(Arditi等人,2024)。该机制独立于模型识别危害的能力,因为拒绝和有害性在激活空间中是分开编码的(Zhao等人,2025a)。此外,这些安全电路通常锚定在模板标记而非指令语义中(Leong等人,2025)。这些工作提供了LLMs中拒绝的详细特征。然而,尚不清楚相同的机制是否适用于LRMs,因为LRMs在产生最终响应之前会生成中间CoT。我们通过检查激活层面的拒绝信号如何与LRMs中CoT的存在和生成相互作用来研究这一点。

LRM中的对抗性攻击。显式的推理轨迹引入了新的攻击面。伪造的推理路径可以欺骗模型,使其认为安全检查已经通过(Giskard AI,2024),并且在有害指令之前添加冗长的良性推理会稀释拒绝信号(Zhao等人,2025b)。除了提示级别攻击,在CoT生成期间专门引导或消融一个谨慎方向,会显著提高服从率(Yamaguchi等人,2025)。这些结果表明,无论是通过提示级别伪造还是激活级别引导,操纵CoT都足以覆盖拒绝。然而,它们主要将CoT视为一个被动的干预目标,而没有考察其如何与激活级别信号相互作用,或者它能在多大程度上独立维持或重建拒绝。我们通过系统分离残差流激活和CoT生成对拒绝信号的个体和联合贡献来解决这一问题。

## 3 实验框架/技术预备

### 3.1 数据集与模型

训练集包含100个有害指令,样本来自ADVBENCH(Zou等人,2023)、MALICIOUSINSTRUCT(Huang等人,2024)、TDC2023(Mazeika等人,2023)和HARMBENCH(Mazeika等人,2024),这些指令均被DeepSeek-R1-Distill-LLaMA-8B模型拒绝,以及100个从Alpaca(Taori等人,2023)采样的无害指令。这两个子集用于推导拒绝方向和服从方向。我们使用由(Arditi等人,2024)引入的安全分数指标来衡量对有害指令的拒绝。我们发现,对于LRMs,常用的基于短语的拒绝启发式方法(例如,“我很抱歉”)不太可靠,更多讨论见附录A。

对于评估,我们构建了一个保留的测试集,包含来自JAILBREAKBENCH(Chao等人,2024)的100个有害指令。这些样本也都被DeepSeek-R1-Distill-Llama-8B模型拒绝。所有实验均使用DeepSeek-R1-Distill-Llama-8B模型和贪婪解码进行,以确保可重复性。

### 3.2 通过拒绝方向进行激活引导

均值差异法。为了提取拒绝方向,我们采用均值差异方法(Arditi等人,2024;Belrose,2023),作用于模型的残差流激活。

设 \\(D_{\\text{harmful}}^{(\\text{train})}\\) 表示一组被DeepSeek-R1-Distill-Llama-8B模型拒绝的有害指令,\\(D_{\\text{harmless}}^{(\\text{train})}\\) 表示一组无害指令。对于每个指令 \\(t\\),我们在层 \\(l \\in \\{1,\\dots,L\\}\\) 提取残差流激活 \\(x^{(l)}(t)\\),取位于指令结束(EOI)或思维结束(EOT)标记的最终标记位置。每组指令的平均激活计算如下:

\\[\\mu^{(l)} = \\frac{1}{|D_{\\text{harmful}}^{(\\text{train})}|} \\sum_{t \\in D_{\\text{harmful}}^{(\\text{train})}} x^{(l)}(t), \\tag{1}\\]
\\[\\nu^{(l)} = \\frac{1}{|D_{\\text{harmless}}^{(\\text{train})}|} \\sum_{t \\in D_{\\text{harmless}}^{(\\text{train})}} x^{(l)}(t). \\tag{2}\\]

然后拒绝方向定义为这两个均值之间的差值:

\\[r^{(l)} = \\mu^{(l)} - \\nu^{(l)}, \\tag{3}\\]

其中 \\(\\mu^{(l)}\\) 和 \\(\\nu^{(l)}\\) 分别表示有害指令和无害指令上的平均残差流激活。该方向捕捉了拒绝行为与服从行为之间表征空间中的主导偏移。

激活加法。为了将模型行为引导向拒绝或远离拒绝,我们沿着提取的方向 \\(r^{(l)}\\) 应用激活加法。具体来说,将 \\(r^{(l)}\\) 添加到残差流中会使激活向有害表示的平均值偏移,从而诱导拒绝:

\\[x^{(l)\\prime} \\leftarrow x^{(l)} + \\alpha \\cdot r^{(l)}. \\tag{4}\\]

其中幅度 \\(\\alpha \\in \\mathbb{R}\\) 决定引导的强度,其符号控制方向。正值将激活向有害表示的平均值偏移并促进拒绝,而负值将其向无害表示的平均值偏移并鼓励服从。该干预应用在层 \\(l\\) 的所有标记位置上。

## 4 实验与结果

表1:有害指令(标准提示下基线为0%服从)上的引导设置和服从率。引导指示是否使用了从EOI或EOT标记提取的拒绝方向,或None。CoT指示CoT是标准提示下模型的响应(原始)、引导期间重新生成的(重新生成)还是被移除的(无)。为了理解LRMs中的拒绝,我们研究了残差流激活和CoT的贡献。

首先,CoT抑制了激活引导的有效性。通过比较固定CoT下的引导、无CoT的引导以及CoT重新生成下的引导,我们证明CoT会部分抵抗内部激活偏移,除非允许CoT与引导信号对齐。这表明拒绝并非仅由单一拒绝方向中介。

其次,LRMs通过CoT和残差流中的并行信号来进行拒绝。我们通过应用先前引导过的、服从的CoT而不进行主动引导来证明这种冗余性,这量化了CoT的独立影响。我们的结果(表1)表明拒绝是由残差流激活和CoT共同中介的。我们使用拒绝分数(Arditi等人,2024)对100个有害且被拒绝的指令评估这些配置,建立了0%的服从基线。

### 4.1 固定推理轨迹下的模板标记引导

在LLMs中,对模板标记进行引导通常足以绕过拒绝(Arditi等人,2024;Leong等人,2025),使其成为一个自然的基线干预措施。为了在LRMs中测试这一点,我们在保持CoT固定的情况下,使用EOI和EOT最终位置处的残差流激活进行引导。引导逆转拒绝的比例最高达到39%(EOI)和43%(EOT),结果在不同层之间有所变化(图1)。这一效果明显弱于标准LLMs(Arditi等人,2024),表明模板标记处的单一方向无法完全捕捉拒绝,也无法绕过限制激活层面控制的因素。

请参考图注

图1:使用从指令结束(EOI)或思维结束(EOT)标记提取的拒绝方向,在引导层上的服从率。引导时CoT固定(来自无引导的运行),仅重新生成最终答案。

### 4.2 无CoT的模板标记引导

为了测试第4.1节中的原始CoT是否限制了引导效果,我们在完全抑制CoT的情况下重复引导干预,阻止其干扰引导信号。我们仅使用基于EOI的引导向量,因为EOT方向是在存在完整CoT的情况下提取的,在无CoT的设置中使用它会限制与第4.1节的比较。在此设置下,服从率上升到70%(图2),相比之下,当CoT固定时仅为39%(第4.1节),这证实了原始CoT积极强化了拒绝并部分抵消了引导的效果。然而,服从率仍然低于LLMs中仅靠引导所达到的水平(Arditi等人,2024),这表明仅仅移除CoT并不能完全解释这一差距。就像LLMs在引导下自由生成所有输出标记一样,允许CoT在引导下重新生成,可能使其主动放大服从而非降低它。

请参考图注

图2:使用从指令结束(EOI)标记提取的拒绝方向,在引导层上的服从率。引导时完全移除CoT,仅重新生成最终答案。

### 4.3 重新生成推理轨迹下的模板标记引导

在LLMs中,引导允许模型自由生成所有后续标记。在LRMs中,CoT本身也是一个生成的组件,并且如第4.2节所示,其内容积极影响最终决策。因此,我们在允许模型自由重新生成其CoT的情况下应用相同的基于EOI的引导向量,这与内部干预在CoT生成期间可以影响模型行为的研究结果(Yamaguchi等人,2025)一致。由于EOT标记仅在CoT之后产生,我们仅使用基于EOI的引导向量。这导致服从率大幅提升,达到94%(图3),相比之下,当CoT固定时为39%(第4.1节),当CoT被抑制时为70%(第4.2节),与LLMs在引导下通常观察到的性能相匹配。

相似文章

推理模型难以控制其思维链,但这其实是好事

OpenAI Blog

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。

面向高效可控LLM推理的代理式思维链引导

Hugging Face Daily Papers

ACTS(代理式思维链引导)将LLM推理控制形式化为马尔可夫决策过程,其中控制器代理在推理过程中使用推理策略和引导短语自适应地引导冻结的推理器。该方法在显著节省token的同时实现了与完全思考模型相当的准确率,支持可控的准确率-效率权衡。

检测前沿推理模型中的不当行为

OpenAI Blog

OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。