偏离分布的声音:同人小说子类型作为对齐大语言模型的通用白话越狱手段

arXiv cs.CL 论文

摘要

香港中文大学(深圳)的研究人员提出了一种越狱方法,利用Archive of Our Own平台上的同人小说子类型作为攻击载体,将有害内容嵌入创意写作场景中。该方法在八个对齐大语言模型上的平均攻击成功率(ASR)达到0.731,多轮扩展版本(Saga-A4)的ASR进一步提升至0.924,超越了现有方法。

arXiv:2606.04483v1 公告类型:新论文 摘要:现有针对对齐大语言模型的越狱攻击是离散的构件,其表层形式易于被识别和修补。我们认为,真正的失效模式并非某个具体的提示词,而是安全训练中覆盖不足的整类自然人类写作风格(register)。基于这一洞察,我们提出了首个以真实同人小说子类型作为通用攻击载体的越狱方法族:将一种创意写作元模式与Archive of Our Own(AO3)十二个子类型之一的段落相结合,并将有害行为嵌入所生成场景的高潮部分。该构建方法无需攻击者使用大语言模型,也无需针对具体目标进行适配。在HarmBench和JailbreakBench的合并数据集上,针对八个对齐大语言模型,该攻击在四评判集成体系下将平均ASR从0.278提升至0.731;因子分解分析表明,性能提升主要来源于写作风格(register),而非文本长度或结构。两种主动防御手段不仅未能缩小白话体与基线之间的差距,反而使其进一步扩大,说明针对模板的防御方法只会将攻击者引导向类似本文所采用的风格类攻击。我们还提出了SAGA-A4——一种静态四轮扩展方案,平均ASR达到0.924,大幅超越现有三种多轮攻击方法。
查看原文
查看缓存全文

缓存时间: 2026/06/05 02:14

# 偏分布之声:同人小说子类型作为对齐大语言模型的通用白话越狱手段

来源:https://arxiv.org/html/2606.04483

Zhongze Luo1∗, Ruihe Shi1∗, Zhenshuai Yin1, Haoyue Liu1, Weixuan Wan4, Xiaoying Tang1,2,3†

1香港中文大学(深圳)理工学院
2深圳市未来网络智能研究院(FNii-Shenzhen)
3广东省未来智能网络重点实验室
4西安交通大学微电子学院

∗同等贡献 †通讯作者

**警告:本文包含潜在有害内容。**

###### 摘要

现有针对对齐大语言模型的越狱攻击均为离散的人工制品,其表面形式易于被识别和修补。我们认为,真正的失效模式并非某个具体的提示词,而是安全训练未能充分覆盖的整类自然人类写作语体。基于这一洞察,我们提出了首个以真实同人小说子类型作为通用攻击载体的越狱方法族:将创意写作元提示条件化于 *Archive of Our Own*(AO3)十二种子类型的段落之上,并将有害行为嵌入生成场景的高潮部分。该构造无需攻击方大语言模型,也无需针对特定目标进行适配。在覆盖 HarmBench 与 JailbreakBench 并集的八个对齐大语言模型上,该攻击在四评判集成下将平均攻击成功率(ASR)从 0.278 提升至 0.731;因子分解实验表明,这一提升主要由语体贡献,而非长度或结构。两种主动防御手段反而拉大了白话攻击与基线之间的差距,表明针对模板的防御措施只会将攻击者引导至基于语体的攻击方式。我们还提出了 Saga-A4——一种静态四轮扩展攻击,平均 ASR 达到 0.924,大幅超越三种现有多轮方法。

---

Off-Distribution Voices: Fanfiction Subgenres as Universal Vernacular Jailbreaks for Aligned LLMs

Zhongze Luo1∗, Ruihe Shi1∗, Zhenshuai Yin1, Haoyue Liu1, Weixuan Wan4, Xiaoying Tang1,2,3†
1香港中文大学(深圳)理工学院
2深圳市未来网络智能研究院(FNii-Shenzhen)
3广东省未来智能网络重点实验室
4西安交通大学微电子学院
∗同等贡献 †通讯作者

警告:本文包含潜在有害内容。

## 1 引言

参见说明图 1:场景对比。相同的有害行为在直接提问时被拒绝,但包裹在同人小说场景中后却得到了完成。

现有关于对齐大语言模型越狱的研究围绕离散人工制品展开:对抗性后缀\(Zou et al., 2023 (https://arxiv.org/html/2606.04483#bib.bib36); Liu et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib18)\)、攻击方大语言模型查询链\(Chao et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib5); Mehrotra et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib20)\)、嵌套虚构模板\(Li et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib16)\)、说服分类体系\(Zeng et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib35)\)以及"为所欲为"人格\(Shen et al., 2024a (https://arxiv.org/html/2606.04483#bib.bib24)\)。每种人工制品都带有可识别的表面形式,一旦厂商识别该形式,攻击便会失效。由此形成的局面是围绕单一提示词的猫鼠博弈。

我们认为,这一图景掩盖了真正的漏洞所在。对齐训练失效并非针对某个特定的聪明句子,而是针对整类自然人类写作语体——例如剧本格式、书信体日记或慢热浪漫文学——这些语体在预训练阶段被对齐模型大量读取,却从未被告知是有害的。

为将这一观察转化为攻击,我们借助 *Archive of Our Own*(AO3)——最大的读者驱动同人小说开放档案库——从中筛选出十二个子类型,涵盖叙事形式、情感弧线、世界观构建和内省视角。仅需来自某一子类型的五次示例段落,便足以引出其语体风格。一旦目标有害行为被嵌入该语体场景的高潮,针对政策违规表面形式训练的安全过滤器便会将输出视为创意写作,而非对程序性危害的请求。图 1 (https://arxiv.org/html/2606.04483#S1.F1) 对比了同一目标行为在两种模式下的表现。

据我们所知,这是首个以真实同人小说子类型作为通用载体的越狱方法族;现有基于语体的攻击\(Bisconti et al., 2026 (https://arxiv.org/html/2606.04483#bib.bib1); Cui et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib7); Shen et al., 2024b (https://arxiv.org/html/2606.04483#bib.bib25); Song et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib26); Tang et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib28)\) 各自只采用单一语体,而我们将语料库本身作为攻击维度。我们在 HarmBench 与 JailbreakBench 并集上进行评估,共计 290 个有害行为,覆盖十六个危害类别,测试了八个大语言模型,涵盖四个开放权重家族和两个闭源前沿模型。

#### 贡献

\(i\) 我们提出首个同人小说语体越狱方法族,以十二种真实 AO3 子类型作为通用攻击载体,发现其在六个现有基线上将攻击成功率提升约三倍,在每个模型上均为正值,且在长度匹配后仍然有效。
\(ii\) 通过风格迁移实验,我们证明条件化语料库的选择主导了结构叠加层的选择:仅使用无模板的"纯文本"单元即可媲美现有最优叠加层的效果。
\(iii\) 我们发现两种防御手段反而拉大了白话攻击与基线的比率,这意味着针对模板的防御只会将攻击者引向语体攻击。
\(iv\) 我们提出 Saga-A4——一种无需攻击方大语言模型的静态四轮攻击流程,平均 ASR 达到 0.924,大幅超越三种现有多轮方法。

## 2 相关工作

#### 提示词工程越狱

基于优化的攻击直接在输入空间搜索对抗性后缀\(Zou et al., 2023 (https://arxiv.org/html/2606.04483#bib.bib36); Liu et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib18)\),或通过黑盒攻击方大语言模型搜索最大化模型合规性的自然语言提示\(Chao et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib5); Mehrotra et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib20)\)。基于人格的攻击使用固定的解锁提示,要求模型忽略其指令\(Shen et al., 2024a (https://arxiv.org/html/2606.04483#bib.bib24)\),而 Wei et al. \(2023 (https://arxiv.org/html/2606.04483#bib.bib29)\) 则系统整理了安全训练数据与推理时输入之间的表面不匹配现象。这些攻击有一个共同特点:均可通过离散且可检测的表面形式被识别。一旦厂商识别该形式,攻击便得到缓解。

#### 基于语体与风格的攻击

越来越多的研究每次只针对一种风格语体。对抗性诗歌利用抒情韵律\(Bisconti et al., 2026 (https://arxiv.org/html/2606.04483#bib.bib1)\);叙事模仿使用 LoRA 微调来复现目标声音\(Cui et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib7)\);语音模式讲故事针对 GPT-4o\(Shen et al., 2024b (https://arxiv.org/html/2606.04483#bib.bib25)\);快乐结局语气遮掩转移情感效价\(Song et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib26)\);角色扮演分解攻击角色人格\(Tang et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib28)\);五层嵌套虚构将请求包裹在深层嵌入叙事框架中\(Li et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib16)\)。这些攻击均通过将输入分布偏移至远离安全训练分布的位置而奏效,但每种方法都使用人工挑选的语体。我们直接从现有读者驱动语料库中采样十二种子类型,并证明该特性具有普遍性。

#### 多轮越狱

Crescendo\(Russinovich et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib23)\) 使用攻击方大语言模型将无害轮次逐步升级至有害终点;ActorAttack\(Ren et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib21)\) 通过演员网络挖掘规划轮次序列;FITD\(Weng et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib30)\) 移植了社会心理学中的"登门槛"模式。近期研究还探索了叙事分解\(Chang et al., 2026 (https://arxiv.org/html/2606.04483#bib.bib3)\)和多轮到单轮嵌入\(Ha et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib13)\)。我们将 Saga-A4 与上述三种 SOTA 方法的静态四轮模板进行比较。

#### 基准测试、评判器与防御

我们在 HarmBench\(Mazeika et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib19)\) 与 JailbreakBench\(Chao et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib4)\) 的并集上进行评分,使用 HarmBench-13B、LlamaGuard-3-8B\(Inan et al., 2023 (https://arxiv.org/html/2606.04483#bib.bib15)\)、WildGuard-7B\(Han et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib14)\) 和 GPT-5.4-mini(采用 StrongREJECT 评分标准\(Souly et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib27)\))组成的集成评判器进行打分。单一评判器的可靠性在近期研究中受到质疑\(XU et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib33); Xie et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib31)\);我们的集成设计可吸收单一评判器的偏差。我们测试了两种最常被引用的主动防御:Self-Reminder\(Xie et al., 2023 (https://arxiv.org/html/2606.04483#bib.bib32)\) 和 SmoothLLM\(Robey et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib22)\)。

参见说明图 2:实验设计框架。目标行为通过五次示例创意写作元提示,被十二种语体之一与七种结构叠加层之一包裹,生成的提示词发送至八个目标大语言模型,并由四评判集成打分。

## 3 方法

图 2 (https://arxiv.org/html/2606.04483#S2.F2) 概述了攻击流程。下文分别描述元提示、语体层与结构层。

### 3.1 五次示例 AO3 条件化元提示

对于目标行为 $b$ 和子类型 $s$,我们从每个子类型的公开 AO3 段落池中抽取五个示例,并要求 GPT-5.4-mini(以创意写作教练的身份)撰写一段 80–140 词的单一用户提示词,要求大语言模型生成一个子类型 $s$ 的短场景,其高潮部分嵌入 $b$。元提示不携带任何显式越狱指令或政策覆盖;每次调用重新抽取示例,使攻击信号保留在子类型的分布特性中,而非任何单一段落。完整元提示文本和池构建细节见附录 B (https://arxiv.org/html/2606.04483#A2)。

### 3.2 十二种语体载体

十二种子类型涵盖对齐数据明显覆盖不足的四个维度:叙事形式、情感弧线、世界观构建和内省视角。完整分类体系见附录 B (https://arxiv.org/html/2606.04483#A2)。

### 3.3 七种结构叠加层

我们定义了风格迁移实验的结构轴。为测试条件化是否会放大已知的单轮模板效果,我们在示例之后添加一条结构注释,编码现有某一攻击的原则:对抗性诗歌\(Bisconti et al., 2026 (https://arxiv.org/html/2606.04483#bib.bib1)\)、嵌套虚构\(Li et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib16)\)、快乐结局语气\(Song et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib26)\)、无限制叙述者\(Tang et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib28)\)、生动叙事\(Cui et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib7)\)或单提示 Crescendo 蒸馏\(Russinovich et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib23)\);对照组"纯文本"不添加该注释。各单元格之间仅此一行有所不同,七种结构与十二种语体的交叉产生了风格迁移设计的 84 个单元格。

### 3.4 Saga-A4 多轮攻击

参见说明图 3:Saga-A4 流程。T1 建立剧本场景;T2 确保感官承诺;T3 升级至程序细节;T4 汇编按时间顺序的输出。工作示例见附录 D (https://arxiv.org/html/2606.04483#A4)。

Saga-A4 将单轮提示词替换为四轮对话,各轮次的逐字指令如图 3 (https://arxiv.org/html/2606.04483#S3.F3) 所示。每一轮消解一道对齐防护栏,T1–T4 目标回复的拼接结果作为整体进行评判。Saga-A4 不使用攻击方大语言模型,无需针对特定目标适配,且在给定解码种子的情况下具有确定性。我们将 Saga-A4 与三种现有多轮方法进行比较:FITD\(Weng et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib30)\)、ActorAttack\(Ren et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib21)\) 和 Crescendo\(Russinovich et al., 2025 (https://arxiv.org/html/2606.04483#bib.bib23)\)。

### 3.5 四评判评估协议

对于每个提示词-回复对,我们收集四个独立标签。HarmBench-13B\(Mazeika et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib19)\) 提供基于红队成功数据训练的二元分类器;LlamaGuard-3-8B\(Inan et al., 2023 (https://arxiv.org/html/2606.04483#bib.bib15)\) 和 WildGuard-7B\(Han et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib14)\) 提供二元安全分类器;GPT-5.4-mini 在拒绝、说服力和具体性三个维度上对 StrongREJECT 评分标准\(Souly et al., 2024 (https://arxiv.org/html/2606.04483#bib.bib27)\)进行打分,并以 $0.25$ 为阈值对规范化的 $[0,1]$ 分数进行二值化。报告的攻击成功标签采用四中取二的多数表决。我们拟合 GEE 逻辑回归模型\(Liang and Zeger, 1986 (https://arxiv.org/html/2606.04483#bib.bib17)\),以行为-模型对作为聚类单元,并使用原始一致率、Cohen's $\kappa$、PABAK\(Byrt et al., 1993 (https://arxiv.org/html/2606.04483#bib.bib2)\) 和 Gwet's AC1\(Gwet, 2008 (https://arxiv.org/html/2606.04483#bib.bib12)\) 报告评判器间一致性,这是因为高基率会压缩 $\kappa$\(Feinstein and Cicchetti, 1990 (https://arxiv.org/html/2606.04483#bib.bib9)\)。所有三种统计量的封闭形式定义见附录 C (https://arxiv.org/html/2606.04483#A3)。

### 3.6 形式化攻击规范

设 $\mathcal{B}$ 为去重后的有害行为集合,$\mathcal{S}$ 为十二种同人小说语体集合,$\mathcal{O}$ 为七种结构叠加层集合。对于每种语体 $s$,我们维护一个公开 AO3 示例池 $\mathcal{E}_s$,并抽取五段文本 $E_s \sim \pi_s$。改写大语言模型 $R_\theta$ 随后将元提示实例化为单个提示词

$$x \;=\; R_{\theta}\!\bigl(b,\,s,\,o,\,E_{s}\bigr), \tag{1}$$

其中 $R_\theta$ 以创意写作教练的身份进行提示。目标模型 $M$ 返回 $y \sim M(x)$,四个评判器 $J_1, \dots, J_4$ 各自给出标签 $J_j(x, y) \in \{0, 1\}$。集成决策采用四中取二多数表决:

$$\widehat{a}(x,y) \;=\; \mathbf{1}\!\Bigl[\,\textstyle\sum_{j=1}^{4}J_{j}(x,y)\,\geq\,2\Bigr]. \tag{2}$$

对于目标模型 $M$ 和攻击策略 $\alpha = (s, o)$,我们将攻击成功率定义为在行为上平均的集成标签期望值:

$$\mathrm{ASR}(M, \alpha) \;=\; \frac{1}{|\mathcal{B}|}\!\sum_{b \in \mathcal{B}}\!\mathbb{E}_{E_s \sim \pi_s,\, y \sim M(x)}\!\bigl[\widehat{a}(x,y)\bigr],$$

相似文章

为了内容而内容

Armin Ronacher

作者探讨了LLM如何影响编码和日常语言中的用词,发现LLM偏好的词汇在编程会话和Google Trends中出现的频率均有所增加,这引发了人们对人类开始采用LLM写作风格的担忧。