# 推理时漏洞:超越表层安全——沿生成轨迹的对齐问题

arXiv cs.AI 论文

摘要

本文证明,LLM 安全漏洞不仅限于"浅层安全"(首 token 对齐),而是存在于生成过程中的任意节点——在序列中间注入少量 token 即可将模型引导至有害输出。作者提出通过在生成轨迹上进行训练,并模拟序列中段的扰动,以提升模型的鲁棒性。

arXiv:2606.04778v1 公告类型:新论文 摘要:经过安全对齐的大型语言模型(LLM)在推理阶段仍然容易受到干预,这些干预会将模型的生成引导至有害输出。近期研究将此归因于"浅层安全性",即对齐主要集中在前几个输出 token 上。我们证明,浅层安全性是一种更广泛的推理时漏洞的特例——在任意生成步骤中注入少量 token,都能显著改变后续的安全行为。我们还发现,模型隐藏状态中与拒绝方向的对齐程度并不能预测其对此类注入攻击的鲁棒性,这揭示了在受到扰动时,内部状态本身并不能决定生成行为。为此,我们通过模拟序列中间位置的扰动来构建生成轨迹,并直接在这些轨迹上对模型进行对齐训练,结果表明这一方法提升了模型对序列中间注入攻击的鲁棒性,并能泛化到利用早期 token 生成的攻击场景。我们的工作表明,实现鲁棒的安全对齐需要在生成过程本身上进行训练,而不仅仅是针对生成结果。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:08

# 推理时漏洞超越浅层安全:沿生成轨迹的对齐
来源:https://arxiv.org/html/2606.04778
Kyungmin Park 韩国外国语大学 falspace@hufs\.ac\.kr &Taesup Kim 首尔国立大学 taesup\.kim@snu\.ac\.kr
###### 摘要
经过安全对齐的大型语言模型(LLM)在推理过程中仍然容易受到干预,从而被引导生成有害输出。近期研究将此归因于浅层安全问题,即对齐主要集中在前几个输出词元上。我们证明,浅层安全只是更广泛的推理时漏洞的一个特例——在任意生成步骤注入少量词元,都可能大幅改变后续的安全行为。我们还发现,模型隐藏状态与拒绝方向的对齐程度并不能预测其对此类注入攻击的鲁棒性,这说明内部状态本身并不能决定受扰动时的生成行为。为此,我们通过模拟中间序列扰动来构建生成轨迹,直接在这些轨迹上对模型进行对齐,结果表明这一方法提升了对中间序列注入的鲁棒性,并能泛化到利用早期词元生成的攻击场景。我们的研究表明,稳健的安全对齐需要在生成过程本身上进行训练,而不仅仅针对其输出结果。

## 1 引言

大型语言模型通过后训练方法实现有用且无害的对齐,这些方法包括 RLHF\(Ouyang et al\.,2022 (https://arxiv.org/html/2606.04778#bib.bib22)\)、Constitutional AI\(Bai et al\.,2022 (https://arxiv.org/html/2606.04778#bib.bib5)\)和 DPO\(Rafailov et al\.,2023 (https://arxiv.org/html/2606.04778#bib.bib26)\)。然而,经过安全对齐的模型仍然容易受到越狱攻击。对抗性后缀优化\(Zou et al\.,2023 (https://arxiv.org/html/2606.04778#bib.bib35); Jia et al\.,2025 (https://arxiv.org/html/2606.04778#bib.bib14)\)和自动化黑盒攻击\(Chao et al\.,2025 (https://arxiv.org/html/2606.04778#bib.bib7); Liu et al\.,2024 (https://arxiv.org/html/2606.04778#bib.bib17)\)能够构造输入,诱使模型生成肯定性的第一个词元(如"Sure"),此后模型便会完成有害的回复。除输入侧攻击外,开源模型和主流 API 还暴露了助手回合预填充机制——仅需预填充"Sure, here is",便足以在多个强力模型上实现接近完美的攻击成功率(ASR)\(Andriushchenko et al\.,2025 (https://arxiv.org/html/2606.04778#bib.bib1)\)。

这些攻击机制各异,但殊途同归:每种方法都控制了模型生成的前几个词元,而后续的生成便随之展开。这引发了一个问题:当生成过程在中间序列受到扰动时,当前的安全对齐是否仍然有效?

Qi et al\. \(2025 (https://arxiv.org/html/2606.04778#bib.bib24)\)的近期工作提供了部分解释,他们识别出所谓的浅层安全对齐现象。他们表明,当前的安全对齐主要改变了模型在前几个输出词元上的生成分布,而强制响应以拒绝前缀开头能够有力地抑制有害续写。后缀优化\(Zou et al\.,2023 (https://arxiv.org/html/2606.04778#bib.bib35); Jia et al\.,2025 (https://arxiv.org/html/2606.04778#bib.bib14)\)、黑盒攻击\(Chao et al\.,2025 (https://arxiv.org/html/2606.04778#bib.bib7); Liu et al\.,2024 (https://arxiv.org/html/2606.04778#bib.bib17)\)和预填充攻击\(Andriushchenko et al\.,2025 (https://arxiv.org/html/2606.04778#bib.bib1)\)均利用了这种浅层性。

我们在此观察的基础上进一步论证:浅层安全只是推理时漏洞的一个特例。我们将推理时注入定义为:在选定的解码步骤强制向响应中插入一段短词元序列。为了检验该漏洞是否仅限于初始前缀,我们在任意解码步骤注入词元,并同时考虑有害注入和拒绝注入两种情形。我们发现,在整个生成过程中,安全行为均会因注入词元而发生显著变化,甚至在模型已经在生成拒绝内容时也不例外。这表明,该漏洞并非初始词元分布的固有属性,而是整个生成过程的属性。

为了理解这一漏洞的成因,我们对模型的内部表征进行了研究。通过使用均值差拒绝原型\(Rimsky et al\.,2024 (https://arxiv.org/html/2606.04778#bib.bib27); Arditi et al\.,2024 (https://arxiv.org/html/2606.04778#bib.bib3)\),我们发现模型在注入时刻处于类拒绝的隐藏状态,然而注入仍然会将生成轨迹重定向至有害输出。有害词元会将生成轨迹从这些状态中拉偏,即便模型的隐藏状态与已知的拒绝表征高度相似亦是如此。因此,稳健的安全对齐必须超越单纯激发拒绝状态的层面,还必须在扰动下稳定这些状态,并在生成向有害区域漂移时恢复安全轨迹。

现有的安全对齐方法大多不针对此进行训练。标准的后训练目标(如 RLHF 和 DPO)基于完整的提示-响应样本对行为进行优化\(Ouyang et al\.,2022 (https://arxiv.org/html/2606.04778#bib.bib22); Rafailov et al\.,2023 (https://arxiv.org/html/2606.04778#bib.bib26)\),默认情况下不会让模型接触到需要在干预后恢复的中间生成状态。对抗训练方法对模型的输入施加扰动,无论是离散词元、连续嵌入还是隐空间表征\(Mazeika et al\.,2024 (https://arxiv.org/html/2606.04778#bib.bib20); Xhonneux et al\.,2024 (https://arxiv.org/html/2606.04778#bib.bib30); Sheshadri et al\.,2024 (https://arxiv.org/html/2606.04778#bib.bib29)\)。Circuit Breakers 等表征层面的防御方法在特定层对有害激活模式进行重路由\(Zou et al\.,2024 (https://arxiv.org/html/2606.04778#bib.bib36)\),但这些静态约束并不覆盖在中间生成时注入词元所产生的激活路径。这些方法主要在生成开始之前进行干预,作用于输入、偏好数据或内部表征层面,而非在被扰动的生成动态上训练模型。

这促使我们寻求一种直接作用于生成过程本身的安全对齐形式。我们通过模拟中间解码步骤的词元注入来扩充模型自身的生成轨迹,从而构建训练数据。扩充后的轨迹既包括安全生成被有害注入破坏的情形,也包括不安全生成被引导回拒绝的情形。实验结果表明,我们的方法提升了对推理时注入的鲁棒性,并能泛化至训练所用数据集之外。迭代应用时,该方法可将我们设定中的 ASR 趋近于零,同时也增强了对现有攻击家族(包括预填充攻击和后缀攻击)的鲁棒性。

总体而言,我们的贡献如下:

- •我们证明,先前研究所称的浅层安全是更广泛的推理时漏洞的一个特殊情形。注入的词元能够在任意生成步骤改变安全行为,且在生成早期效果最为显著。
- •我们发现,模型隐藏状态与拒绝方向的对齐程度并不能阻止注入对生成轨迹的重定向。这促使我们直接对生成轨迹进行对齐,而非防御固定的内部状态。
- •我们提出了一种基于双向轨迹增强的安全对齐方法,在模型自身的生成轨迹上进行训练。迭代应用时,该方法可将域内数据的 ASR 趋近于零,并能泛化至预填充攻击、后缀优化攻击和语义越狱攻击。

## 2 推理时漏洞的刻画

### 2\.1 符号与设置

设 π\\pi 为一个语言模型。我们用 xx 表示输入提示,用 y=\(y1,y2,...,yT\)y=\(y\_\{1\},y\_\{2\},\\ldots,y\_\{T\}\) 表示输出序列。每个词元 yty\_\{t\} 从 π\(⋅∣x,yτr\\displaystyle\\cos\(h\_\{i,t\},\\,p\_\{r\}\)\>\\tau\_\{r\}\\quad\(refusal\-to\-unsafe\),\\displaystyle\\text\{\(refusal\-to\-unsafe\)\},\(5\)cos⁡\(hi,t,pa\)\>τa\\displaystyle\\cos\(h\_\{i,t\},\\,p\_\{a\}\)\>\\tau\_\{a\}\\quad\(unsafe\-to\-refusal\)\.\\displaystyle\\text\{\(unsafe\-to\-refusal\)\}\.\(6\)

我们将此步骤记为 t∗t^\{\*\},并通过在 0\.4 到 0\.7 范围内进行消融实验来选取 τ\\tau(附录 D\.3 (https://arxiv.org/html/2606.04778#A4.SS3) 中的表 11 (https://arxiv.org/html/2606.04778#A4.T11))。在步骤 t∗t^\{\*\} 处,我们插入相反方向的注入序列 ss,并继续进行标准的自回归解码。有害注入序列从候选池中选取,候选池包含对抗性短语和听起来无害的短语(例如"Certainly!"),选择在基础模型上 ASR 最高的候选项(附录 D\.3 (https://arxiv.org/html/2606.04778#A4.SS3) 中的表 10 (https://arxiv.org/html/2606.04778#A4.T10))。完整的增强轨迹为:

y~i=\(yτr\\cos\(h\_\{i,t\},\\,p\_\{r\}^\{\(k\)\}\)\>\\tau\_\{r\} 若存在满足条件的步骤 t 且注入 sharms^\{\\text\{harm\}\} 后的续写有害则 存储 y~iunsafe←\(yτa\\cos\(h\_\{i,t\},\\,p\_\{a\}^\{\(k\)\}\)\>\\tau\_\{a\} 若存在满足条件的步骤 t 且注入 srefs^\{\\text\{ref\}\} 后的续写安全则 存储 y~isafe←\(ysystem<\|end\_header\_id\|\>You are Llama Guard, a moderation assistant that strictly classifies the user's input as either "safe" or "unsafe"\. You must reply with only one word: either "safe" or "unsafe"\. Do not provide any explanation\.<\|eot\_id\|\><\|start\_header\_id\|\>user<\|end\_header\_id\|\>\{response\}<\|eot\_id\|\><\|start\_header\_id\|\>assistant<\|end\_header\_id\|\>

#### 评估指标

我们使用两种互补的评判工具来评估模型输出的有害性。第一种是 Llama\-Guard\-3\-8B\Inan et al\.,[2023 (https://arxiv.org/html/2606.04778#bib.bib13)\]。我们未使用其默认的类别级提示格式,而是采用了简化的系统提示,指示模型仅输出"safe"或"unsafe"中的一个词,不作任何解释。完整的提示模板如表 5 (https://arxiv.org/html/2606.04778#A1.T5) 所示。任何被标记为"unsafe"的响应均视为有害。第二种评判工具是 OpenAI Moderation API(omni\-moderation\-latest)。该 API 在多个危害类别上返回二值标志。若任意类别被标记,则将该响应归类为有害。

#### 生成配置

本研究中所有推理均使用贪心解码。在每个生成步骤中,通过对输出 logits 取 argmax 来选择下一个词元,不使用温度缩放或核采样。增强和评估阶段的最大新词元数均设置为 256。

### A\.5 数据集规模与计算环境

表 6:每轮迭代新增的增强轨迹对数量。第 1 轮迭代反映基础模型的漏洞情况;后续迭代仅统计前一轮更新模型的失败案例,因此第 k 轮迭代的累计数据集为第 1,...,k1,\\ldots,k 轮的总和。

| 模型 | 第 1 轮 | 第 2 轮 | 第 3 轮 |
|---|---|---|---|
| Mistral\-7B\-Instruct\-v0\.3 | 298 | 50 | 3 |
| Llama\-3\.1\-8B\-Instruct | 342 | 29 | 2 |
| Qwen2\.5\-7B\-Instruct | 332 | 84 | 48 |

表 6 (https://arxiv.org/html/2606.04778#A1.T6) 报告了每个模型在每轮迭代中新增的轨迹对数量。每个条目仅统计该轮迭代新增的对数,第 k 轮迭代的累计训练集为第 1,...,k1,\\ldots,k 轮的总和。过滤操作会移除注入后续写方向与预期不符的轨迹(第 3\.1 节 (https://arxiv.org/html/2606.04778#S3.SS1)),因此每轮迭代的产出取决于前一轮更新模型的剩余漏洞数量。在第一轮迭代中,Mistral、Llama 和 Qwen 分别产生 298、342 和 332 对,反映了各模型的基础漏洞情况。第二轮迭代分别从更新后模型的失败案例中新增 50、29 和 84 对。第三轮迭代新增 3、2 和 48 对,后续迭代之间增量趋于平缓,反映了剩余漏洞数量的递减,与表 1 (https://arxiv.org/html/2606.04778#S4.T1) 中报告的接近零的 ASR 相一致。

我们所有对齐实验均在单张 NVIDIA RTX 3090 GPU(24GB 显存)上进行。使用 QLoRA 进行一轮 SimPO 训练约需 30 至 40 分钟,共 370 步。为 520 条 AdvBench 指令生成增强轨迹每个模型约需 2 小时。训练期间峰值 GPU 显存占用约为 20GB。

## 附录 B 基线方法详情

### B\.1 防御基线

我们与三种防御基线进行比较。对于每种基线,我们采用与我们方法相同的评估协议。所有模型均在相同的注入攻击下、使用相同的生成设置(贪心解码,最大 256 个新词元)以及相同的两种评判工具(Llama\-Guard\-3\-8B 和 OpenAI Moderation API)进行评估。

**Egida\-DPO** \Garcia\-Gasulla et al\.,[2025 (https://arxiv.org/html/2606.04778#bib.bib10)\] 采用标准的基于 DPO 的偏好优化进行安全对齐。我们按照原论文中描述的训练方案在 AdvBench 上重新训练 Egida\-DPO,为 Llama\-3\.1\-8B\-Instruct 和 Qwen2\.5\-7B\-Instruct 生成检查点。由于 Egida\-DPO 未提供 Mistral 的配置,故不报告 Mistral 的检查点。

**SafeProbing** \Zhao et al\.,[2026 (https://arxiv.org/html/2606.04778#bib.bib34)\] 通过在采样的解码步骤处探测模型的安全意识来检测有害内容。我们使用原论文中描述的 LoRA 微调方案,以相同的训练数据、阈值和检查点采样比例,为全部三个基础模型训练 SafeProbing 检查点。

**Circuit Breakers** \Zou et al\.,[2024 (https://arxiv.org/html/2606.04778#bib.bib36)\] 在冻结的基础模型之上训练基于 LoRA 的断路器,使用两种表征层面的损失:针对断路器数据集 Ds\\mathcal\{D\}\_\{s\} 的表征重路由损失,以及针对良性保留数据集 Dr\\mathcal\{D\}\_\{r\} 的保留损失。在所报告的 LLM 设置中,断路损失针对选定的中间层(第 10 层和第 20 层),LoRA 适配器插入第 0 至 20 层的所有线性层。原始工作在合成断路器集上训练,保留集由 UltraChat\Ding et al\.,[2023 (https://arxiv.org/html/2606.04778#bib.bib9)\] 和 XSTest\Röttger et al\.,[2024 (https://arxiv.org/html/2606.04778#bib.bib28)\] 组成,Llama\-3 还额外使用了拒绝数据,并使用 HarmBench 验证集中的静态攻击测试用例进行超参数调整。我们使用公开发布的检查点 GraySwanAI/Mistral\-7B\-Instruct\-RR(基于 Mistral\-7B\-Instruct\-v0\.2)和 GraySwanAI/Llama\-3\-8B\-Instruct\-RR(基于 Meta\-Llama\-3\-8B\-Instruct)。由于原论文及已发布的 GraySwanAI 检查点仅覆盖 Mistral 和 Llama\-3,不包含 Qwen2\.5\-7B\-Instruct,因此 Circuit Breakers 仅在 Mistral 和 Llama 上报告结果。

**LAT** \Sheshadri et al\.,[2024 (https://arxiv.org/html/2606.04778#bib.bib29)\] 在训练期间对多个层的残差流施加 l2\\ell\_\{2\} 范数约束的扰动,每层的攻击分别受到约束。在越狱鲁棒性设置中,原始工作对第 8、16、24 和 30 层施加扰动,使用 UltraChat 作为保留模型性能的良性数据,并对 Llama\-3 实验在该良性数据上施加原始模型与微调模型之间的 KL 正则化惩罚。作者报告了对不同层组合的实验及选择过程。

相似文章

当自回归一致性损害安全对齐时

arXiv cs.LG

本文分析了大型语言模型安全对齐为何脆弱,将其归因于“自回归一致性”——即下一个词元预测倾向于扩展当前响应轨迹——这导致对齐更新集中在早期词元上。作者提出了一种利用这一特性的“随机插入攻击”,并设计了一个对抗性安全对齐框架来应对。

测试时训练破坏安全护栏

arXiv cs.LG

本文识别了测试时训练(TTT)的三种威胁模型,攻击者可利用这些模型绕过LLM的安全过滤器,实现高攻击成功率。研究结果表明,TTT引入了新的漏洞,破坏了现有的安全护栏。

对齐但脆弱:通过零阶优化增强LLM安全鲁棒性

arXiv cs.AI

本文提出了一个混合框架,结合一阶安全对齐与零阶微调,以增强LLM安全对齐在受到对齐后扰动时的鲁棒性。理论和实验结果表明,仅需少量微调步骤即可在保持安全性的同时提升鲁棒性。

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。