隐藏、重建与越狱:利用多模态大语言模型中的重建-隐藏权衡
摘要
本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。
arXiv:2605.05709v1 公告类型:新论文
摘要:基于意图混淆的多模态大语言模型(MLLMs)越狱攻击通过将有害查询转换为隐藏的多模态输入来绕过安全机制。我们表明,此类攻击受制于一种重建-隐藏权衡:转换后的输入必须向安全过滤器隐藏有害意图,同时保持足够的可恢复性,以便受害模型能够重建原始请求。通过对三种代表性黑盒方法的重建分析,我们发现现有转换方法难以平衡这种权衡,从而限制了其有效性。相比之下,我们表明字符移除变体实现了更好的平衡。在此基础上,我们提出了感知隐藏的变体构建,该方法贪婪地选择在有害关键词对齐度较低且相互多样的字符移除变体,并通过五种模态感知的提示策略将其实例化。此外,我们引入了与关键词相关的干扰图像,这些图像在不同情境下描绘了有害关键词,相比通用的干扰图像提供了更有效的辅助视觉上下文。在闭源和开源MLLMs上的实验表明,所提出的策略优于强大的基线方法,揭示了一种未被充分探索的漏洞:模型的自身重建能力可能被利用来恢复隐藏的有害意图并产生不安全响应。
查看缓存全文
缓存时间: 2026/05/08 08:38
# 隐藏、重构、越狱:利用多模态大语言模型中的重构-隐藏权衡
来源: https://arxiv.org/html/2605.05709
Md Farhamdur Reza<sup>1</sup> Richeng Jin<sup>2</sup> Tianfu Wu<sup>1</sup> Huaiyu Dai<sup>1</sup>
<sup>1</sup>北卡罗来纳州立大学 <sup>2</sup>浙江大学
{mreza2, tianfu_wu, hdai}@ncsu.edu [email protected]
###### 摘要
针对多模态大语言模型(MLLMs)基于意图混淆的越狱攻击,通过将有害查询转化为隐蔽的多模态输入来绕过安全机制。我们表明,此类攻击受*重构-隐藏权衡(reconstruction–concealment tradeoff)*支配:转化后的输入必须对安全过滤器隐藏有害意图,同时又要保持足够的可恢复性,以便受害模型能重构出原始请求。通过对三种代表性黑盒方法的重构分析,我们发现现有的转化方法在平衡这一权衡方面存在困难,从而限制了其有效性。相比之下,我们表明字符移除变体实现了更好的平衡。在此基础上,我们提出了*隐蔽感知变体构建(concealment-aware variant construction)*,该方法贪婪地选择在有害关键词对齐度低且彼此多样化的字符移除变体,并通过五种模态感知提示策略进行实例化。我们进一步引入了*关键词相关干扰图像(keyword-related distractor images)*,这些图像在多种语境中描绘有害关键词,比通用干扰图像提供更有效的辅助视觉上下文。在闭源和开源 MLLM 上的实验表明,所提出的策略优于强大的基线方法,揭示了一个未被充分探索的漏洞:模型自身的重构能力可以被利用来恢复隐藏的有害意图并产生不安全响应。
**警告:** 本文包含为研究目的由 AI 模型生成的潜在有害文本。
## 1 引言
大语言模型(LLMs)在广泛的自然语言理解和生成任务中表现出强大的性能 (Minaee et al., 2024; Lewkowycz et al., 2022; Min et al., 2022; Yao et al., 2022),而多模态大语言模型(MLLMs)将这些能力扩展到文本和图像的联合推理 (OpenAI, 2026; Google DeepMind, 2026; Qwen Team, 2026; Wang et al., 2025a),从而实现了广泛的视觉-语言应用 (Marino et al., 2019; Liu et al., 2023, 2026; Driess et al., 2023)。尽管安全对齐抑制了对直接请求的有害输出 (Ouyang et al., 2022; Rafailov et al., 2023),但越狱研究表明,无论是纯文本 LLMs (Wei et al., 2023; Liu et al., 2024a; Chao et al., 2025; Andriushchenko et al., 2025) 还是 MLLMs (Liu et al., 2024b; Zhao et al., 2025a; You et al., 2025; Yang et al., 2025) 仍然存在漏洞,视觉模态扩大了攻击面并带来了新的安全挑战 (Liu et al., 2024b; Li et al., 2024)。
先前的工作已在白盒 (Qie et al., 2024; Wang et al., 2024)、灰盒 (Shayegani et al., 2024) 和黑盒 (Liu et al., 2024b; Li et al., 2024; Ma et al., 2024; Jeong et al., 2025) 设定下研究了 MLLM 越狱攻击;黑盒攻击在实践中尤为相关,因为许多部署的 MLLM 仅通过 API 访问。最近的黑盒攻击通过隐藏或分散文本和图像模态中的有害意图来实施攻击,包括与有害查询相关的图像 (Liu et al., 2024b; Li et al., 2024)、排版渲染 (Gong et al., 2025; Wang et al., 2025b) 和跨模态意图分解 (Ma et al., 2025; Jiang et al., 2025)。
黑盒攻击的一个重要子集是通过将原始查询转化为混淆形式来隐藏有害意图。对比子图像分散越狱(Contrasting Subimage Distraction Jailbreaking, CS-DJ)(Yang et al., 2025) 将查询分解为排版为子图像的子问题,假设回答它们集体恢复原始任务,尽管分解的问题可能偏离原始意图。洗牌不一致性(Shuffle Inconsistency, SI)(Zhao et al., 2025a) 打乱单词和补丁顺序,依赖于模型即使经过排列也能识别有害意图的隐式能力。FlipAttack (Liu et al., 2025) 反转字符顺序并指示模型将其反转回来,但忠实恢复可能很困难,特别是对于较弱的模型。
尽管机制不同,但这三种方法都要求受害模型从转化后的输入中正确恢复原始有害意图。这是攻击成功的必要但不充分条件:如果模型未能重构意图,则无法产生预期的有害响应;然而,如果重构成功,但如果转化后的输入未能很好地隐藏有害意图,仍可能被拦截。这指出了现有方法未明确解决的一个深层矛盾。
基于混淆的越狱必须保留足够的信息以供受害模型恢复原始有害请求,但使重构成为可能的相同信息也会使有害意图更明确且更容易检测。相反,更积极地隐藏有害意图的转化可能提高隐蔽性,但会阻碍忠实重构。我们将这种矛盾形式化为*重构-隐藏权衡*:**重构**衡量受害 MLLM 从转化后的输入中恢复原始查询的能力,而**隐藏**捕捉转化后的输入在多大程度上模糊了有害意图。在我们的分析中,我们使用基于 CLIP 的语义相似度作为代理来衡量隐蔽性,比较转化表示与原始查询或有害关键词之间的相似度,较低的相似度表示更强的隐蔽性。
尽管 MLLM 越狱攻击近期取得了进展,但这一权衡受到的直接关注有限。

**图 1:** 代表性开源 MLLM 的重构能力,通过 \(a\) 精确匹配率、\(b\) 编辑相似度和 \(c\) 恢复查询与原始查询之间的重构 CLIP 相似度来衡量。在 \(a\) 中,值显示在近零柱上方,图例报告跨模型的平均值。现有的混淆方法降低了表面层重构,而 SI 和 CS-DJ 在 \(c\) 中保留了相对较高的语义相似度。随机字符移除变体在保持高重构 CLIP 相似度的同时实现了更强的表面层重构。
为了考察这三种方法(CS-DJ、SI 和 FlipAttack)如何平衡重构和隐蔽性,我们从 HADES 数据集 (Li et al., 2024) 生成转化后的查询,并指示 MLLM 使用特定于方法的重构提示恢复原始查询(附录 C.1)。我们使用*精确匹配率*和*编辑相似度*来衡量重构质量,这两者捕捉表面层保真度,以及*重构 CLIP 相似度*,捕捉与原始查询的语义相似度;形式定义见附录 C.2。如**图 1**所示,SI 和 CS-DJ 保留了相对较高的重构 CLIP 相似度,表明它们保留了有助于受害模型推断有害意图的语义信息。然而,它们较低的精确匹配和编辑相似度得分表明对原始措辞的恢复不够忠实。此外,**表 1**报告了使用 CLIP 文本编码器计算的*隐藏 CLIP 相似度*,计算每个转化后的文本表示与原始查询或有害关键词之间的相似度。具体而言,我们嵌入 FlipAttack 的反转查询、SI 的词序打乱查询以及 CS-DJ 的三个分解子问题,报告子问题间的最大相似度作为保守的隐蔽性度量。结果表明,SI 和 CS-DJ 对两个参考对象都保留了高 CLIP 相似度,表明隐蔽性较弱。相比之下,FlipAttack 提供了更强的隐蔽性,但重构质量较差。综合来看,这些结果表明现有转化方法暴露了重构-隐藏权衡的不同侧面,而非有效地平衡两者。
**表 1:** 各转化查询与原始查询(第 1 行)或有害关键词(第 2 行)之间的隐藏 CLIP 相似度,跨越不同转化方法。较低的相似度表示更强的隐蔽性。随机字符移除在隐蔽性方面与 FlipAttack 相当,同时保留了更强的重构能力(**图 1**),而 SI 和 CS-DJ 的隐蔽性明显较低。
受此观察的启发,我们接下来引入一种简单的字符移除转化作为通向更好权衡的诊断步骤。具体而言,我们从原始查询中随机删除比例 \(\rho=0.20\) 的字符以创建五个变体,并将这些变体连同被移除字符的索引提供给模型以进行重构(提示模板见附录 C.1)。对于隐蔽性测量,我们使用 CLIP 文本编码器嵌入五个字符移除变体,并针对每个参考对象报告变体间的最大相似度作为保守度量。如**图 1**所示,随机字符移除比现有的混淆方法实现了强得多的表面层重构,同时保持了高重构 CLIP 相似度。同时,**表 1**显示随机字符移除的隐藏 CLIP 相似度与 FlipAttack 相当,表明类似的隐蔽性。关于 Qwen3.5 和 InternVL3.5 模型系列的额外结果见附录 C.3。这一诊断结果表明,字符移除变体为平衡重构-隐藏权衡提供了一个有前景的基础。
基于这一发现,我们正式提出了一类基于*隐蔽感知变体构建*(§3.1)的越狱策略。我们的方法不仅依赖随机字符移除,而是生成一个字符移除候选池,并选择与有害关键词语义对齐度较低、且相对于原始查询和彼此之间具有多样性的变体。较低的关键词对齐度鼓励隐蔽性,而多样性保留互补信息以利于重构。所选变体随后通过五种模态感知提示策略进行实例化,将转化后的信息分布在文本和图像通道中(§3.2)。我们进一步引入了*关键词相关干扰图像*(§3.3),这些图像在多种语境中描绘有害关键词,比通用干扰图像提供更有针对性的辅助视觉上下文,并一致地提高攻击成功率。
我们的贡献如下:
- 我们识别了基于意图混淆的越狱攻击中的*重构-隐藏权衡*,实证表明 FlipAttack、SI 和 CS-DJ 未能有效平衡这一权衡,并证明攻击成功率随字符移除比例 \(\rho\) 呈现倒 U 型模式,为该权衡提供了直接证据。
- 我们提出了*隐蔽感知变体构建*,选择多样化、低关键词对齐的字符移除变体,并通过五种模态感知提示策略进行实例化,在几乎不损失可恢复性的情况下实现更强的隐蔽性。
- 我们引入了*关键词相关干扰图像*,在多种语境中描绘有害关键词,比通用干扰图像提供更有效的辅助视觉上下文,并一致地提高攻击成功率。
- 我们在五个闭源和十四个开源 MLLM 上进行了广泛实验,证明所提出的策略始终优于强大的基线方法,攻击成功率最高达到 99.7%。
相关工作回顾详见附录 B。
## 2 预备知识
我们将多模态大语言模型(MLLM)记为 \(F_{\theta}\),其中 \(\theta\) 表示模型参数。给定文本输入 \(x_t\) 和视觉输入 \(x_v\),模型产生响应 \(R=F_{\theta}(x_t, x_v)\),对于纯文本输入 \(x_v=\varnothing\),对于纯图像输入 \(x_t=\varnothing\)。由于安全对齐 (Ouyang et al., 2022; Rafailov et al., 2023),对齐的 MLLM 在输入包含有害意图时预期返回拒绝、无关或无害的响应。我们将拒绝、无关或其他无害响应集合记为 \(\mathcal{R}_r\),对应于不成功的攻击。
我们关注从有害文本查询 \(x_t\) 开始的越狱攻击,并将其转化为多模态输入对 \((\hat{x}_t, \hat{x}_v) = \mathcal{T}(x_t; \mathcal{D})\),其中 \(\mathcal{D}\) 表示攻击中使用的可选辅助图像集,\(\mathcal{T}\) 是特定于攻击的输入转化算子。基于混淆的越狱攻击旨在使转化后的输入对逃避安全过滤,同时保持足够的可恢复性,以便模型推断潜在的有害请求并产生有害响应。这需要生成的响应不在不成功攻击响应集合中:
$$
F_{\theta}(\hat{x}_t, \hat{x}_v) \notin \mathcal{R}_r. \tag{1}
$$
在实践中,我们使用裁判模型验证生成的响应是否构成有害内容。相似文章
通过轨迹重写保护语言模型免受未授权蒸馏
研究者提出轨迹重写方法,可在保留答案正确性的同时阻止未授权的大语言模型知识蒸馏,并嵌入可检测的水印。
揭示大语言模型中的数学推理:内部机制的方法学研究
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
多代采样越狱检测在大语言模型中的实证研究
实证研究表明,多代采样显著提升大语言模型的越狱检测能力,能发现单次审计遗漏的隐藏有害输出。
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。