并非所有对话轮次都同等重要:多轮越狱中的信用分配
摘要
本文提出了 TRACE,这是一个基于强化学习的、具有对话轮次感知能力的多轮大语言模型(LLM)越狱攻击信用分配框架,声称在攻击成功率和防御对齐方面取得了显著提升。
arXiv:2605.08778v1 公告类型:新论文
摘要:在支持多轮对话的场景中部署大语言模型(LLM)使得越狱攻击得以通过将有害意图分散到看似无害的对话轮次中来实施。近期的基于训练的多轮越狱方法虽然能够从交互反馈中学习长期攻击策略,但通常依赖于粗糙的轨迹级结果信号,这些信号会均匀广播至每一个对话轮次。然而,我们发现,在多轮越狱中,每个对话轮次的贡献是不均匀的,具有阶段依赖性和目标特异性。这种粗糙的结果监督导致了信用分配问题,使得在成功的攻击轨迹中对冗余轮次过度奖励,而在失败的轨迹中对有用的中间轮次奖励不足。为了解决这一问题,我们提出了 TRACE,这是一个面向基于强化学习(RL)的多轮越狱的、具有轮次感知能力的信用分配框架。对于成功的攻击轨迹,TRACE 通过“留一法”语义掩码来估算每个轮次的贡献;对于失败的轨迹,TRACE 基于提示词的有害程度和语义相关性分配惩罚,并附加额外的局部拒绝感知惩罚。此外,我们将攻击侧的信用信号复用,用于多轮防御对齐。在开源和闭源目标模型上的大量实验表明,TRACE 在有效性、迁移性和效率方面展现出强大的整体性能,相比最强的强化学习基线,其攻击成功率相对提升了约 25%,同时在复用于防御对齐时,也改善了安全与效用之间的平衡。
查看缓存全文
缓存时间: 2026/05/12 07:24
# 并非所有轮次都重要:多轮越狱中的信用分配
来源:https://arxiv.org/html/2605.08778
Xiaoyu Wen, Shanghai AI Laboratory, Shanghai Jiao Tong University
Han Qi, Shanghai AI Laboratory
Ziyuan Zhou, Shanghai AI Laboratory
Peng Yu, Shanghai AI Laboratory, Shanghai Jiao Tong University
Xingcheng Xu, Shanghai AI Laboratory
Dongrui Liu, Shanghai AI Laboratory
Xia Hu, Shanghai AI Laboratory
Chaochao Lu, Shanghai AI Laboratory
Qiaosheng Zhang, Shanghai AI Laboratory
###### 摘要
在对话中部署大语言模型(LLMs)使得越狱攻击能够将有害意图分布在看似无害的多轮交互中。近期的基于训练的多轮越狱方法从交互反馈中学习长期攻击策略,但往往依赖于粗糙的轨迹级结果信号,并将这些信号均匀地广播给每一轮。然而,我们发现多轮越狱中的轮次级贡献是**非均匀的**(只有少数轮次驱动成功)、**依赖阶段的**(取决于上下文阶段)以及**目标特定的**(取决于目标模型)。这种粗糙的结果监督引发了**信用分配**问题,导致在成功的轨迹中过度奖励冗余轮次,而在失败的轨迹中低估有用的中间轮次。为解决此问题,我们提出了 TRACE,这是一种用于基于强化学习(RL)的多轮越狱的轮次感知信用分配框架。对于成功轨迹,TRACE 通过“留一法”语义掩码估计轮次级贡献;对于失败轨迹,TRACE 基于提示词的有害性和语义相关性分配惩罚,并附加局部拒绝感知惩罚。此外,我们复用了攻击侧的信用信号用于多轮防御对齐。在开源和闭源目标模型上的广泛实验表明,TRACE 在有效性、可转移性和效率方面取得了整体最强的性能,相较于最强的 RL 基线,攻击成功率相对提升了约 25%,同时在复用于防御对齐时改善了安全性与实用性的平衡。我们的代码可在 https://github.com/xsddys/TRACE 找到。
††脚注:*同等贡献。
免责声明:本文包含可能具有冒犯性和有害性的文本。
## 1 引言
大语言模型(LLMs)在多样化的现实世界应用中展现了强大的能力(bai2025intern),但其广泛部署也引发了重大的安全担忧,特别是在面对对抗性输入或越狱攻击时(ganguli2022red)。虽然现有的安全机制(ji2025pku)可以缓解许多单轮攻击,但实际滥用通常通过多轮交互展开(li2024llm)。在这种设置下,恶意意图可以分布在多个看似无害的轮次中,而不是在单个提示词中暴露(russinovich2025great)。这使得有害上下文逐渐累积,使此类攻击更难检测和防御。
现有的多轮越狱方法包括**免训练工作流**和**基于训练的方法**。免训练工作流(jiang2024redqueen; russinovich2025great; weng-etal-2025-foot; yang2024jigsaw; yang2024chain)依赖于预定义的交互模式或启发式规划,缺乏动态策略适应,限制了其在复杂多轮交互中的有效性(ha2025m2s; yang2025multiturn)。基于训练的方法通过学习攻击者策略来解决这一局限性,主要分为两类:**基于对齐的方法**(guo-etal-2025-mtsa; zhao2025siren)和**基于强化学习(RL)的方法**(feng2026sema; xiong2025trojail)。前者优化每轮的提示词生成以最大化即时响应的有害性,但忽略了长期的有害影响,且面临高探索复杂度。相比之下,后者最大化轨迹最终响应的有害性,使攻击者能够学习长期越狱策略。
尽管取得了近期进展,基于 RL 的多轮越狱仍面临两个主要限制。(i)现有方法将所有轮次分配相同的轨迹级信号,这可能会提供误导性的训练信号。如图 1(https://arxiv.org/html/2605.08778#S1.F1)所示,成功轨迹中的冗余轮次可能被过度奖励,仿佛它们因果地促成了最终的越狱。(ii)现有方法缺乏可靠的中间反馈来进行轮次级信用分配。与具有可验证进度信号的数学、编码或工具使用任务不同(wang2025igpo; zhang2025unlocking),越狱成功是语义和上下文相关的,缺乏来自局部反馈的可靠监督。
**图 1:TRACE 概述。** 现有的多轮越狱训练范式依赖于启发式工作流、DPO 或带有轨迹级结果奖励的 RL。TRACE 保持多轮 RL rollout 不变,但通过轮次级贡献将最终结果信号分配给各个轮次,区分设置、冗余、过早暴露和关键轮次。
为了解决这些问题,我们提出了 TRACE(TuRn-level Assignment for CrEdit),一个用于基于 RL 的多轮越狱的轮次感知信用分配框架,主要贡献如下:
* 我们刻画了基于 RL 的多轮越狱中的信用分配问题,表明轮次级贡献是(i)**非均匀的**,只有少数轮次驱动越狱成功;(ii)**依赖阶段的**,取决于轮次是否符合上下文中的当前阶段;(iii)**目标特定的**,取决于目标模型的安全边界。
* 我们提出了 TRACE,针对成功和失败轨迹使用不同的轮次级信用规则分配结果信号。对于成功轨迹,TRACE 通过留一法语义掩码估计轮次信用;对于失败轨迹,它基于提示词有害性和语义相关性分配惩罚。
* 我们在开源和闭源目标模型上进行了广泛的攻击实验。TRACE 相对于最强的 RL 基线将攻击成功率(ASR)相对提高了约 25%,同时展现出比现有方法更强的可转移性和更高的效率。
* 我们进一步复用 TRACE 的攻击侧信用信号进行多轮防御。通过对齐潜在风险和直接伤害状态,TRACE 实现了早期风险干预,并改善了防御模型的安全性与实用性平衡。
## 2 预备知识
##### 多轮攻击
遵循先前工作(guo-etal-2025-mtsa; xiong2025trojail; zhao2025siren),我们将多轮越狱公式化为可训练的攻击者模型 $\pi_\theta$ 与固定的目标模型 $\pi_\phi$ 之间的闭环交互。给定有害种子提示词 $x_0$,在第 $t$ 轮,攻击者根据种子和对话历史 $\tau_{t-1} := (x_1, y_1, ..., x_{t-1}, y_{t-1})$ 生成对抗性提示词 $x_t \sim \pi_\theta(\cdot | x_0, \tau_{t-1})$;目标产生响应 $y_t \sim \pi_\phi(\cdot | \tau_{t-1}, x_t)$;裁判模型评估响应并分配有害性分数 $R = r(x_0, y_t) \in [0, 1]$。此交互可概括为:
$$
x_0 \xrightarrow[\pi_\theta]{\text{attacker}} x_1 \xrightarrow[\pi_\phi]{\text{target}} y_1 \xrightarrow[\pi_\theta]{\text{attacker}} x_2 \xrightarrow[\pi_\phi]{\text{target}} y_2 \cdots \xrightarrow[\pi_\theta]{\text{attacker}} x_t \xrightarrow[\pi_\phi]{\text{target}} y_t. \quad (1)
$$
当任意轮次 $R \ge \gamma$ 时过程终止,其中 $\gamma$ 是有害性阈值,超过该阈值表示攻击成功,或者达到最大轮次数。
##### 多轮 GRPO
多轮 GRPO 通过从轨迹级结果奖励计算优势,将标准 GRPO(shao2024deepseekmath)扩展到多轮对话(wan2025rema; wang2025ragen)。给定一组 $G$ 个生成的轨迹,我们最大化以下目标:
$$
\mathcal{J}_{\text{MT-GRPO}}(\theta) = \mathbb{E} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{T_i} \sum_{t=1}^{T_i} \frac{1}{|x_{i,t}|} \sum_{k=1}^{|x_{i,t}|} \left( \min(\rho_{i,t,k}(\theta) \hat{A}_i, \quad (2)
$$
$$
\operatorname{clip}(\rho_{i,t,k}(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i \right) - \beta D_{\mathrm{KL}}(\pi_\theta \, \| \, \pi_{\mathrm{ref}}) \right],
$$
其中用于裁剪的令牌级重要性比率 $\rho_{i,t,k}(\theta)$ 和组归一化优势 $\hat{A}_i$ 定义为:
$$
\rho_{i,t,k}(\theta) := \frac{\pi_\theta(x_{i,t,k} | x_0, \tau_{i,t-1}, x_{i,t,<k})}{\pi_{\mathrm{ref}}(x_{i,t,k} | x_0, \tau_{i,t-1}, x_{i,t,<k})},
$$
$$
\hat{A}_i := h - \frac{\sum_{j=1}^G h_j}{G},
$$
其中 $h = \mathbb{I}\{r(x_0, y_T) > \gamma\}$。
## 3 洞察:并非所有轮次都同等重要
### 3.1 洞察 1(非均匀性):只有少数轮次驱动越狱成功
在成功轨迹中,并非所有轮次都对最终结果同等重要。为了量化每个轮次的贡献,我们提出了一种基于留一法语义掩码的方法。对于轨迹中的每个轮次 $t$,我们掩码该轮次的攻击者提示词 $x_t$,并让攻击者重新生成一个新的提示词 $x'_t$。我们用 $x'_t$ 替换 $x_t$,保持其余对话历史不变,并重新采样目标响应 $y'_T$。如果原始轨迹不安全,即 $h=1$,而掩码后的轨迹安全,即 $h'=0$,则该轮次被分类为**攻击关键轮次**;否则为**冗余轮次**。如果原始轨迹安全,即 $h=0$,而掩码后的轨迹不安全,即 $h'=1$,则该轮次被分类为**安全关键轮次**;否则为**中性轮次**。
**表 1:基于留一法掩码和最终响应重采样的轮次类别。**
如表 1(https://arxiv.org/html/2605.08778#S3.T1)所示,在成功轨迹中,47.1% 的轮次被估计为攻击关键,而 52.9% 被归类为冗余,表明许多轮次尽管对最终越狱贡献甚微,仍会收到均匀的正向轨迹级反馈;在失败轨迹中,大多数轮次被估计为中性(94.1%),只有少数是安全关键(5.9%),表明只有少量交互主动抑制了潜在的越狱。这些观察表明轮次级贡献高度非均匀,并非所有轮次都同等重要。因此,应降低冗余轮次的权重,并避免安全关键轮次,因为它们分别对攻击成功贡献甚少或阻碍成功。
### 3.2 洞察 2(阶段依赖性):轮次级贡献取决于对话阶段
轮次对越狱成功的贡献不仅取决于其表面有害性,还取决于其出现的上下文阶段,即在对话轨迹中的相对位置。在多轮攻击中,相同的提示词在不同阶段可能产生截然不同的效果。如果在早期引入潜在不安全的提示词,可能会触发拒绝并使攻击偏离轨道,而如果在足够的上下文铺垫后引入,则可能变得有效。为了检查这种效应,我们比较了成功和失败轨迹中攻击者提示词在各对话轮次的有害性分布。具体而言,我们考虑具有固定轮次数(例如 $T=5$)的多轮对话。对于每个攻击者查询 $x_t$,我们使用守卫模型将其分为三类(安全、争议性或不安全)。对于每一轮,我们计算每类查询的百分比,并分析这些比例随轮次的变化。
如图 2(https://arxiv.org/html/2605.08778#S3.F2)(a) 所示,成功轨迹表现出清晰的上下文设置模式。它们通常在早期阶段以安全提示词开始以建立良性上下文,并在充分铺垫后逐渐转向后期阶段更有害的提示词。失败轨迹以两种常见方式偏离此模式:它们可能在早期阶段变得过于激进,我们称之为**过早暴露**,或者在后期阶段保持过于良性,我们称之为**有害性漂移**。这些模式表明,攻击的有效性不仅取决于有害性水平,还取决于其在对话中引入的时间。
**图 2:跨轮次阶段和目标的攻击动态。** (a) Qwen2.5-7B-IT 各轮次阶段的有害性分布,分别显示成功和失败轨迹;阶段箱表示归一化的轮次位置。(b) gpt-oss-20b 的有害性分布。(c) 针对 Qwen2.5-7B-IT 的早期拒绝率。(d) 针对 gpt-oss-20b 的早期拒绝率。
### 3.3 洞察 3(目标特异性):轮次级贡献取决于目标安全行为
轮次级贡献不仅依赖阶段,还具有目标特异性。不同的目标模型表现出不同的安全行为和拒绝边界,使得相同的攻击者提示词可能被一个模型接受而被另一个模型拒绝。因此,轮次是否对攻击产生积极贡献取决于其交互的具体目标。这种目标特定效应在图 2(https://arxiv.org/html/2605.08778#S3.F2)(a) 和 (b) 的比较中显而易见。与 Qwen2.5-7B-IT 相比,gpt-oss-20b 需要更谨慎的早期探测,且失败轨迹更有可能在后期轮次漂移向安全提示词,表明不同目标之间存在不同的安全边界。为了进一步检查这一观察,我们测量了不同目标模型在训练迭代中的早期拒绝率(即在五轮对话的第 1-2 轮发生的拒绝)。如图 2(https://arxiv.org/html/2605.08778#S3.F2)(c) 和 (d) 所示,在 Qwen2.5-7B-IT 上,攻击可以在早期拒绝后恢复,而在 gpt-oss-20b 上的早期拒绝很少导致成功,表明不同模型之间的拒绝敏感性不同。这些结果一致表明,轮次级贡献取决于目标特定的安全行为,因此不能使用单一的、与目标无关的信用分配规则进行建模。
## 4 方法
基于上述三个洞察,TRACE 对公式 (2) 进行了单一修改:它将轨迹级优势 $\hat{A}_i$ 替换为轮次感知优势 $\hat{A}_{i,t}$:
$$
\hat{A}_{i,t} = m_{i,t} \hat{A}^o_i + \hat{A}^p_{i,t}, \quad (3)
$$
其中 $\hat{A}^o_i$ 是轨迹级结果优势,$m_{i,t}$ 将此结果信号重新分配给各轮次,$\hat{A}^p_{i,t}$ 是拒绝感知的局部过程惩罚。乘数 $m_{i,t}$ 针对成功轨迹 $S^+$ 和失败轨迹 $S^-$ 分别定义:
$$
m_{i,t} := \begin{cases} m^+_{i,t}, & \tau_i \in S^+, \\ m^-_{i,t}, & \tau_i \in S^-. \end{cases} \quad (4)
$$
对于成功轨迹,我们使用留一法语义掩码估计 $m^+_{i,t}$,如第 4.1 节所述。对于失败轨迹,我们考虑相似文章
隐藏、重建与越狱:利用多模态大语言模型中的重建-隐藏权衡
本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。
A^2TGPO:具有自适应回合级裁剪的代理回合组策略优化
本文介绍了 A^2TGPO,这是一种针对代理式大语言模型(LLMs)的强化学习方法,它利用自适应回合级裁剪和信息增益归一化来改善多轮交互中的过程信用分配。
迟一步:多轮对话中隐藏恶意意图的响应感知防御
提出TurnGate,一种回合级监控器,通过识别最早响应即会促成有害动作的回合来检测多轮对话中的隐藏恶意意图,并配套构建了多轮意图数据集(MTID)以支持训练与评估。
多代采样越狱检测在大语言模型中的实证研究
实证研究表明,多代采样显著提升大语言模型的越狱检测能力,能发现单次审计遗漏的隐藏有害输出。
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。