一次越狱,多种语言:学习语言不敏感的意图表示用于多语言越狱检测

arXiv cs.CL 论文

摘要

本文提出MLJailDe,一个多语言越狱检测框架,利用反向翻译数据增强和相对距离约束来提高跨语言泛化能力和鲁棒性,在11种语言上实现了98.5%的F1分数。

arXiv:2606.11202v1 公告类型:新 摘要:大型语言模型(LLMs)日益部署于面向全球多语言用户的应用中,然而安全训练仍集中在主导语言上,并未与多语言能力同步发展,从而为越狱攻击创造了可被利用的漏洞。当前的越狱防御措施主要是在主导语言中开发和评估的,其有效性受到对齐的多语言监督资源匮乏以及语言变异导致的表示分散的限制。为了解决这个问题,我们提出了MLJailDe,一个旨在同时提升多语言鲁棒性和跨语言泛化能力的多语言越狱检测框架。MLJailDe首先引入了一种多语言反向翻译数据增强算法,构建了一个覆盖11种语言、语义一致且功能有效的数据集,包含2,232个良性样本和1,239个越狱样本。在此基础上,MLJailDe采用相对距离约束来减少跨语言表示分散,并鼓励意图相似的越狱提示在不同语言中形成一致的聚类,同时进一步使用不平衡感知的分类目标来缓解类别不平衡,学习更可靠的多语言决策边界。实验结果表明,MLJailDe在多种语言上优于最先进的基线方法,实现了98.5%的F1分数,并且在未见过的语言上平均F1分数达到97.1%,展示了强大的有效性和跨语言泛化能力。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:35

# 一个越狱,多种语言:学习语言无关意图表示用于多语言越狱检测 来源:https://arxiv.org/html/2606.11202 Shuyu Jiang, Kaiyu Xu, Xingshu Chen, Hao Ren,*IEEE 会员*, Rui Tang, Yi Zhang,*IEEE 高级会员*, Tianwei Zhang,*IEEE 会员*, Hongwei Li,*IEEE 会士*Shuyu Jiang, Kaiyu Xu, Xingshu Chen, Hao Ren, Rui Tang 和 Yi Zhang 任职于四川大学网络空间安全学院,成都,610065,中国;Tianwei Zhang 任职于南洋理工大学计算机科学与工程学院;Hongwei Li 任职于电子科技大学计算机科学与工程学院,成都,611731,中国Shuyu Jiang 和 Kaiyu Xu 贡献相同。通讯作者:Hao Ren (邮箱:[email protected])。###### 摘要 大型语言模型(LLMs)越来越多地被部署于面向全球多语言用户的应用中,然而安全训练仍集中在主流语言上,并未与多语言能力同步发展,从而为越狱攻击创造了可被利用的漏洞。当前的越狱防御主要在主流通用语种中开发和评估,其有效性受到对齐的多语言监督缺失以及语言变异导致的表示分散的限制。为解决此问题,我们提出 MLJailDe,一个旨在提高多语言鲁棒性和跨语言泛化能力的多语言越狱检测框架。MLJailDe 首先引入一种多语言回译数据增强算法,构建了一个覆盖 11 种语言、语义一致且功能有效的数据集,包含 2,232 个良性样本和 1,239 个越狱样本。在此基础上,MLJailDe 采用相对距离约束来减少跨语言表示分散,促使具有相似意图的越狱提示在不同语言间形成一致的聚类,同时使用不平衡感知的分类目标来缓解类别不平衡问题,学习更可靠的多语言决策边界。实验结果表明,MLJailDe 在多种语言上均优于最先进的基线方法,F1 分数达到 98.5%,在未见过的语言上平均 F1 分数达到 97.1%,展示了强大的有效性和跨语言泛化能力。## I 引言 近年来,大型语言模型(LLMs)凭借其在自然语言理解和生成方面的强大能力,被广泛应用于问答、写作辅助、编程和智能体协作等实际应用中\[1 (https://arxiv.org/html/2606.11202#bib.bib1),2 (https://arxiv.org/html/2606.11202#bib.bib2),3 (https://arxiv.org/html/2606.11202#bib.bib3),4 (https://arxiv.org/html/2606.11202#bib.bib4)\]。

随着其在现实世界中的部署持续扩大,LLMs 也成为了高价值的攻击目标。攻击者试图利用旨在绕过 LLM 安全限制的对抗性输入(即越狱提示)来获取受限知识、危险指令或其他禁止输出,如爆炸物配方、盗窃方法或软件序列号。因此,越狱攻击已成为 LLMs 安全部署的主要威胁之一\[5 (https://arxiv.org/html/2606.11202#bib.bib5),6 (https://arxiv.org/html/2606.11202#bib.bib6)\]。

与此同时,随着 LLM 服务从单语言环境扩展到多语言环境,攻击者与模型安全约束之间的对抗互动也从英语等主流通用语种扩展到了更复杂的多语言场景\[7 (https://arxiv.org/html/2606.11202#bib.bib7),8 (https://arxiv.org/html/2606.11202#bib.bib8),9 (https://arxiv.org/html/2606.11202#bib.bib9)\]。然而,当前的 LLM 安全对齐训练主要聚焦于英语等主流语言,使得模型在这些语言中建立了相对较强的安全约束\[10 (https://arxiv.org/html/2606.11202#bib.bib10),11 (https://arxiv.org/html/2606.11202#bib.bib11)\];而在其他非主流语言中,尤其是训练语料相对有限的低资源语言中,安全覆盖通常远远不够\[7 (https://arxiv.org/html/2606.11202#bib.bib7),8 (https://arxiv.org/html/2606.11202#bib.bib8),12 (https://arxiv.org/html/2606.11202#bib.bib12),13 (https://arxiv.org/html/2606.11202#bib.bib13),14 (https://arxiv.org/html/2606.11202#bib.bib14)\]。这种安全能力的跨语言不平衡为越狱创造了新的机会。攻击者可以利用低资源语言构建多语言越狱提示,绕过在高资源语言中学到的安全防护措施,进而诱导模型生成有害或受限内容。

参见图注
图 1:当前和理想的多语言越狱检测对比:现有方法将多语言越狱提示分散到不同的聚类中(左图),而理想情况是将它们跨语言聚合,并与良性提示清晰分离(右图)。

如今,许多先进研究已经提出了多种针对越狱攻击的防御策略,如表 I (https://arxiv.org/html/2606.11202#S1.T1) 所示,然而这些方法的设计和评估仍然主要集中在英语等主流语言上。在多语言环境,尤其是低资源语言环境下的越狱防御研究仍然相对有限。此外,大多数越狱防御方法,无论是针对单语言还是多语言场景,都在不同程度上依赖目标 LLM 的内部状态或输出信号进行判别\[15 (https://arxiv.org/html/2606.11202#bib.bib15),16 (https://arxiv.org/html/2606.11202#bib.bib16),7 (https://arxiv.org/html/2606.11202#bib.bib7),12 (https://arxiv.org/html/2606.11202#bib.bib12),14 (https://arxiv.org/html/2606.11202#bib.bib14),9 (https://arxiv.org/html/2606.11202#bib.bib9)\]。虽然这种方法可以从生成过程中提取有价值的防御线索,但其决策标准通常与目标 LLM 的内部行为紧密相关。当输入语言发生变化时,特别是涉及低资源语言时,模型的内部表示和生成模式可能随之改变,从而限制了在跨模型复用和稳定多语言检测中的适用性。

表 I:根据以下目标比较现有的越狱防御方法。O1:是否与被保护模型解耦?O2:是否专注于多语言设置,特别是低资源语言?

| 方法 | 会议/期刊 | 核心思想 | 目标 |
|------|-----------|----------|------|
|      |           |          | O1 | O2 |
| DRO\[17 (https://arxiv.org/html/2606.11202#bib.bib17)\] | ICML 2024 | 添加并优化安全系统提示 | × | × |
| RAIN\[18 (https://arxiv.org/html/2606.11202#bib.bib18)\] | ICLR 2024 | 自我评估与回退 | × | × |
| SafeDecoding\[19 (https://arxiv.org/html/2606.11202#bib.bib19)\] | ACL 2024 | 识别安全免责声明并放大其 token 概率 | × | × |
| GradSafe\[15 (https://arxiv.org/html/2606.11202#bib.bib15)\] | ACL 2024 | 分析 LLM 中安全关键参数的梯度 | × | × |
| GradientCuff\[20 (https://arxiv.org/html/2606.11202#bib.bib20)\] | NeurIPS 2024 | 形式化拒绝损失函数的概念 | × | × |
| JBShield\[16 (https://arxiv.org/html/2606.11202#bib.bib16)\] | USENIX 2025 | 检测有毒和越狱概念 | × | × |
| JailAntidote\[21 (https://arxiv.org/html/2606.11202#bib.bib21)\] | ICLR 2025 | 在推理过程中操纵模型的内部状态 | × | × |
| DeepAlign\[22 (https://arxiv.org/html/2606.11202#bib.bib22)\] | NDSS 2026 | 识别有害表示并将其导向更安全的响应 | × | × |
| GraphShield\[23 (https://arxiv.org/html/2606.11202#bib.bib23)\] | ICLR 2026 | 使用图进行越狱检测 | × | × |
| SelfReminder\[24 (https://arxiv.org/html/2606.11202#bib.bib24)\] | NMI 2023 | 添加安全系统提示 | ✓ | × |
| RPO\[25 (https://arxiv.org/html/2606.11202#bib.bib25)\] | NeurIPS 2024 | 构建防御性后缀 | ✓ | × |
| RA-LLM\[26 (https://arxiv.org/html/2606.11202#bib.bib26)\] | ACL 2024 | 通过提示扰动观察 LLM 响应 | ✓ | × |
| SelfDefend\[27 (https://arxiv.org/html/2606.11202#bib.bib27)\] | USENIX 2025 | 建立影子 LLM 用于检测 | ✓ | × |
| ICD\[28 (https://arxiv.org/html/2606.11202#bib.bib28)\] | TPAMI 2026 | 提供上下文演示 | ✓ | × |
| SelfDefense\[7 (https://arxiv.org/html/2606.11202#bib.bib7)\] | ICLR 2024 | 使用多语言安全数据微调 | × | ✓ |
| LangBarrier\[9 (https://arxiv.org/html/2606.11202#bib.bib9)\] | ACL Findings 2024 | 使用人类偏好数据对齐模型 | × | ✓ |
| E-Proxy\[14 (https://arxiv.org/html/2606.11202#bib.bib14)\] | EMNLP Findings 2025 | 使用高资源语言作为跨语言安全知识的代理 | × | ✓ |
| MLC\[29 (https://arxiv.org/html/2606.11202#bib.bib29)\] | ICLR 2026 | 改善多语言表示向量之间的共线性 | × | ✓ |
| **MLJailDe(本文)** | - | 基于对比学习的多语言越狱检测器 | ✓ | ✓ |

实际上,多语言越狱防御的难点并非主要在于模型无法处理多语言文本,而在于现有的安全决策机制很大程度上是在单语言监督下形成的。它们的决策边界更容易依赖于特定语言中的表面攻击模式,难以学习以越狱意图本身为中心的、稳定的、语言无关的表示。如图 1 (https://arxiv.org/html/2606.11202#S1.F1) 所示,在现有的安全训练范式下,不同语言的越狱提示在表示空间中往往表现出显著的分布差异,倾向于形成分散的、语言特定的聚类,而不是统一的、以意图为中心的表示\[30 (https://arxiv.org/html/2606.11202#bib.bib30),31 (https://arxiv.org/html/2606.11202#bib.bib31),32 (https://arxiv.org/html/2606.11202#bib.bib32),33 (https://arxiv.org/html/2606.11202#bib.bib33)\]。同时,由于监督数据的稀缺,低资源语言聚类中越狱提示与良性提示之间的边界通常更加模糊,使得防御模型更难区分。

理想情况下,越狱提示应跨语言聚合在同一个聚类中,同时与良性提示保持清晰分离,从而提高检测鲁棒性和跨语言泛化能力。然而,实现这一目标并非易事。一方面,多语言越狱数据仍然相对稀缺,尤其是低资源语言中的高质量越狱样本。更重要的是,普遍缺乏反映相同越狱意图的高质量跨语言对应样本,难以在表示空间中为有效聚合意图等价的多语言越狱提示提供充分的跨语言监督。另一方面,相同的越狱意图在不同语言中往往通过截然不同的词汇选择、句法形式和话语风格来表达。这种跨语言变异性进一步加剧了多语言越狱提示在表示空间中的分散,使得防御模型更难以学习独立于特定语言表面形式的越狱意图表示,从而阻碍了稳定跨语言越狱决策边界的形成。

为了解决上述问题,本文将多语言越狱检测形式化为一个学习跨语言越狱意图表示的问题,并提出了 MLJailDe,一个用于多语言场景的轻量级、模型无关的越狱检测器。其核心思想是通过学习语言无关的越狱意图表示来减轻语言变异对越狱提示检测的干扰。多语言越狱检测模型 MLJailDe 如图 2 (https://arxiv.org/html/2606.11202#S4.F2) 所示。我们首先设计了一种多语言回译数据增强算法(MBT-DA),用于对训练样本进行多语言增强。以英语越狱和良性提示为参考,MBT-DA 通过基于 LLM 的多语言翻译、语义一致性过滤和功能有效性验证,构建具有相同底层意图的多语言样本,从而为多语言越狱检测提供可靠的监督。在此基础上,进一步引入基于样本间相对距离的分布约束,优化多语言提示在表示空间中的相对分布。这使得越狱提示能够跨语言聚合,同时与良性提示保持清晰分离,从而学习到语言无关的越狱意图表示。同时,考虑到多语言增强可能引入类别不平衡,MLJailDe 融入了一个不平衡感知的分类目标,对语言比例较低的越狱样本赋予更大的权重,以增强模型对低资源语言的鲁棒性。最终,通过联合优化样本间的相对距离关系和分类目标,MLJailDe 形成了更稳定的跨语言决策边界,实现了有效且鲁棒的多语言越狱检测。

总之,我们的主要贡献包括三个方面:
- •为解决多语言越狱检测中跨语言监督信号不足的问题,本文提出了多语言回译数据增强算法 MBT-DA,构建了一个覆盖 11 种语言、包含 2,232 个良性样本和 1,239 个越狱样本的高质量多语言越狱检测语料库,为多语言越狱检测提供了有效的数据支持。
- •为缓解多语言环境中语言变异导致的表示分散问题,我们提出了多语言越狱检测模型 MLJailDe。通过施加样本间的相对距离约束以及不平衡感知的分类目标,MLJailDe 重新组织多语言提示在表示空间中的分布,使越狱提示能够在不同语言间更一致地聚类,同时与良性提示保持清晰分离,从而产生更稳定的决策边界。
- •实验表明,MLJailDe 在多种语言上优于 SOTA,F1 分数达到 98.5%。特别是,MLJailDe 在检测未见过的语言时平均 F1 分数达到 97.1%,突显了其鲁棒性和跨语言泛化能力。

## II 相关工作
### II-A LLM 中的多语言漏洞与防御
基于所使用语言的类型,我们将多语言越狱攻击分为两类:基于机器语言的和基于自然语言的。基于机器语言的攻击利用符号编码来逃避检测\[34 (https://arxiv.org/html/2606.11202#bib.bib34),13 (https://arxiv.org/html/2606.11202#bib.bib13)\]。例如,CipherChat\[34 (https://arxiv.org/html/2606.11202#bib.bib34)\] 处理密码输入并生成密码输出,从而绕过安全对齐。基于自然语言的攻击利用 LLM 在低资源语言中的语言多样性和有限的防御覆盖\[7 (https://arxiv.org/html/2606.11202#bib.bib7),12 (https://arxiv.org/html/2606.11202#bib.bib12),8 (https://arxiv.org/html/2606.11202#bib.bib8),35 (https://arxiv.org/html/2606.11202#bib.bib35)\]。Deng 等人\[7 (https://arxiv.org/html/2606.11202#bib.bib7)\] 创建了第一个多语言越狱数据集 MultiJail,揭示了

相似文章