PHANTOM：面向视觉语言模型的大规模多模态对抗攻击数据集

arXiv cs.AI 2026/06/24 04:00 论文

multimodal adversarial-attacks vision-language-models dataset robustness safety

摘要

介绍了PHANTOM，一个大规模的开源预生成对抗攻击数据集，用于视觉语言模型，涵盖1010个高级类别和55个有害意图子类别，共47,524个对抗样本。该数据集旨在降低对抗研究的门槛，并支持对VLM鲁棒性和安全性的系统评估。

arXiv:2606.24388v1 公告类型：新摘要：我们引入了一个大规模、开源的预生成对抗攻击数据集，用于视觉语言模型（VLM）。该数据集设计为多样化、代表性且实用，通过覆盖10个高级类别和55个有害意图子类别，扩展了现有基准。我们的主要目标是，考虑到生成大量攻击所需的计算成本和复杂性，使对抗数据对研究社区更易获取。数据集包含47,524个对抗样本，采用近期文献中最先进的攻击策略生成。我们的工作通过整合和扩展来自多个既有来源的先前基准，形成了7,826个意图，并引入了一个额外类别以拓宽覆盖范围，从而补充了现有努力。这为研究模型鲁棒性和对齐提供了现实的评估资源。我们的数据集旨在使研究人员和实践者能够系统评估VLM的鲁棒性和安全性，微调攻击生成模型，并在多样化的对抗条件下开发或压力测试防御护栏。通过发布这一资源，我们希望降低对抗研究的门槛，并促进对VLM安全性更可重复、更全面、更可比的评估。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:46

# PHANTOM：面向视觉-语言模型的大规模多模态对抗攻击数据集  
来源：https://arxiv.org/html/2606.24388  

Hossein Khodadadi¹  
意大利人工智能研究院（AI4I），都灵，意大利  
Mauro Dore  
HikmaAI S.r.l.，普拉，意大利  
Mauro Medda  
HikmaAI S.r.l.，普拉，意大利  
Nicola Franco¹  
意大利人工智能研究院（AI4I），都灵，意大利  

Simone Gallivanone²  
意大利人工智能研究院（AI4I），都灵，意大利  

摘要  
我们推出一个大规模、开源、预生成对抗攻击数据集，专用于视觉-语言模型（VLM）。该数据集旨在做到多样化、有代表性和实用，通过覆盖10个高层类别和55个子类别的有害意图，扩展了现有基准。我们的主要目标是让对抗性数据对研究社区触手可及，因为生成大量攻击的计算成本和复杂性很高。该数据集包含47,524个对抗样本，采用了来自最新文献的先进攻击策略。我们的工作整合并扩展了来自多个既有来源的现有基准，形成7,826个意图，并引入了一个新的类别以拓宽覆盖范围，从而补充了现有工作。这为研究模型鲁棒性和对齐提供了实用的评估资源。我们的数据集旨在让研究人员和从业者能够系统地评估VLM的鲁棒性和安全性，微调攻击生成模型，并在多样化的对抗条件下开发或压力测试防御护栏。通过发布这一资源，我们旨在降低对抗性研究的门槛，推动更可重复、更全面、更具可比性的VLM安全评估。  

数据集已发布于：https://huggingface.co/datasets/it4lia/PHANTOM  

免责声明：本文和数据集包含可能令人不适或冒犯的内容，仅供研究目的使用。  

¹贡献相等。  
²通讯作者：[email protected]  

## 1 引言  

随着视觉-语言模型（VLM）在开源和闭源环境中的快速部署，包括安全关键和面向用户的应用，它们对对抗性提示的鲁棒性已成为日益重要的研究关注点（参见例如 [1](https://arxiv.org/html/2606.24388#bib.bib1), [2](https://arxiv.org/html/2606.24388#bib.bib2), [3](https://arxiv.org/html/2606.24388#bib.bib3), [4](https://arxiv.org/html/2606.24388#bib.bib4), [5](https://arxiv.org/html/2606.24388#bib.bib5)）。近期研究一致表明，尽管对齐和规模有所改进，最先进的多模态模型仍然容易受到精心构造的越狱攻击的影响，特别是当有害意图分布在视觉和文本模态之间时（参见例如 [6](https://arxiv.org/html/2606.24388#bib.bib6), [7](https://arxiv.org/html/2606.24388#bib.bib7), [8](https://arxiv.org/html/2606.24388#bib.bib8), [9](https://arxiv.org/html/2606.24388#bib.bib9)）。与单模态设置不同，多模态安全违规往往利用跨模态推理和语义对齐，显著扩大了攻击面，使检测和防御都变得更加复杂。因此，评估VLM的鲁棒性需要大量且多样化的对抗图像-文本对。  

这种成本尤其影响资源受限的研究团队和从业者，对他们而言，复现大规模多模态攻击生成可能不切实际。对于视觉-语言模型尤其如此，其中攻击生成通常比单模态设置消耗更多资源。与纯图像或纯文本攻击不同，多模态攻击可能需要在多个输入空间上优化扰动，同时保持或利用它们的语义对齐。因此，每次攻击迭代可能涉及通过多个模态特定编码器和跨模态对齐模块的前向和反向传播，整体搜索空间变得更大且更受约束。虽然确切的开销取决于模型和攻击类型，但计算成本大致与所涉及模态的组合成本成比例。这使得系统性的对抗攻击生成对于资源受限的参与者尤其苛刻。  

尽管许多现有的开源基准（例如 [4](https://arxiv.org/html/2606.24388#bib.bib4), [10](https://arxiv.org/html/2606.24388#bib.bib10), [11](https://arxiv.org/html/2606.24388#bib.bib11), [12](https://arxiv.org/html/2606.24388#bib.bib12), [13](https://arxiv.org/html/2606.24388#bib.bib13), [14](https://arxiv.org/html/2606.24388#bib.bib14), [15](https://arxiv.org/html/2606.24388#bib.bib15), [1](https://arxiv.org/html/2606.24388#bib.bib1), [16](https://arxiv.org/html/2606.24388#bib.bib16), [17](https://arxiv.org/html/2606.24388#bib.bib17), [3](https://arxiv.org/html/2606.24388#bib.bib3), [2](https://arxiv.org/html/2606.24388#bib.bib2), [7](https://arxiv.org/html/2606.24388#bib.bib7), [18](https://arxiv.org/html/2606.24388#bib.bib18)）提供了生成和评估对抗攻击的工具和流程，但它们通常不发布大规模的现成对抗样本。只有少数数据集提供了这种预生成的攻击（例如 [6](https://arxiv.org/html/2606.24388#bib.bib6), [19](https://arxiv.org/html/2606.24388#bib.bib19), [7](https://arxiv.org/html/2606.24388#bib.bib7), [2](https://arxiv.org/html/2606.24388#bib.bib2), [12](https://arxiv.org/html/2606.24388#bib.bib12)），这些往往聚焦于特定的攻击类型、类别或语言设置。

A 伦理与社会 | B 隐私与数据 | C 安全与身体伤害 | D 犯罪与经济 | E 网络安全威胁 | F 信息与政治 | G 内容与文化 | H 知识产权与所有权 | I 决策与认知 | J 儿童安全*(新增)*  
**风险分类体系** 10个类别 · 55个子类别 · 7,826个意图  

BAP | IDEATOR | MML | FC ATTACK | CSDJ  
**攻击策略**  
攻击生成 ⊕ → 参见标题  

47,524对  
开源（白盒）：DeepSeek-VL2, GLM-4.6V-Flash, Kimi-VL-A3B, Qwen3-VL-30B, Qwen3.5-27B, Qwen3.6-27B, Gemma-4-26B, LLaVA-v1.6-13B, Ministral-3-14B  
闭源（黑盒）：GPT-5.4, GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.6, Claude Opus 4.7, Claude Opus 4.8  
评判器 ⇒ ASR（按类别）  

攻击样本  
参见标题 | 参见标题 | 参见标题 | 参见标题 | 参见标题  
扰动 | 流程图 | 翻转 | 生成 | 拼贴  

意图选择 → 攻击选择 → 测试于 → 迁移  

**图1：PHANTOM概述。** 风险分类体系（10个类别、55个子类别、7,826个意图）定义了数据集；多模态攻击（BAP、IDEATOR、MML、FC ATTACK、CSDJ）将每个意图转化为多模态对抗样本（有害文本提示 + 图像），得到47,524对（提示、图像）。每对提供给九个开源VLM（白盒），并迁移到六个闭源黑盒模型；评判器对每个响应进行评分，获得每个类别的ASR。左下角：来自不同攻击家族的代表性样本。

在本工作中，我们旨在通过发布大规模现成多模态对抗样本集合，覆盖更广泛的攻击策略和安全类别，来补充现有工作。我们的目标不是取代先前的基准，而是提供一个实用的资源，降低安全评估的门槛，并实现可重复、全面的多模态模型鲁棒性测试。基于此，我们设计并生成了PHANTOM数据集，一个用于视觉-语言模型的对抗攻击数据集，旨在填补这一空白，从而降低系统性鲁棒性评估的门槛。该数据集包含单轮和对话式攻击的图像-文本对。关于数据集设计和内容的更详细讨论，请读者参阅第3节（https://arxiv.org/html/2606.24388#S3）。样本是针对各种不同的开源模型生成的，来自以下家族：Qwen3-VL [22](https://arxiv.org/html/2606.24388#bib.bib22)、DeepSeek-VL2 [23](https://arxiv.org/html/2606.24388#bib.bib23)、GLM-4.6V [24](https://arxiv.org/html/2606.24388#bib.bib24)、Kimi-VL [25](https://arxiv.org/html/2606.24388#bib.bib25)、Qwen3.5 [26](https://arxiv.org/html/2606.24388#bib.bib26)、Qwen3.6 [27](https://arxiv.org/html/2606.24388#bib.bib27)。生成的样本随后在最先进的专有模型上进行了评估，包括Claude Opus 4.6–4.7–4.8、GPT-5.4–5.5、Gemini-3.1-pro。结果凸显了跨模型迁移性和鲁棒性趋势，在第3.4节（https://arxiv.org/html/2606.24388#S3.SS4）中呈现。

我们的主要贡献包括：
- • PHANTOM：用于VLM安全评估的大规模开源多模态对抗攻击数据集。
- • 一个精心策划的分类体系，包含7,826个有害意图，覆盖10个类别和55个子类别。
- • 使用四种攻击策略生成的47,524个对抗样本：BAP [8](https://arxiv.org/html/2606.24388#bib.bib8)、IDEATOR [6](https://arxiv.org/html/2606.24388#bib.bib6)、MML [9](https://arxiv.org/html/2606.24388#bib.bib9)、FC ATTACK [20](https://arxiv.org/html/2606.24388#bib.bib20) 和 CSDJ [21](https://arxiv.org/html/2606.24388#bib.bib21)。
- • 跨开源和专有VLM的迁移性分析。
- • 结构化元数据，旨在支持可重复性、基准测试和下游安全研究。

本文组织如下。第2节（https://arxiv.org/html/2606.24388#S2）回顾相关工作。第3节（https://arxiv.org/html/2606.24388#S3）描述数据集设计、生成流程和评估协议。第4节（https://arxiv.org/html/2606.24388#S4）讨论当前版本的局限性，第5节（https://arxiv.org/html/2606.24388#S5）阐述伦理考量。

## 2 相关工作  

在对抗攻击和模型鲁棒性领域，大量工作已经对敏感类别进行了基准测试，并创建了针对视觉-语言模型（VLM）的攻击数据集，以评估脆弱性并为模型对齐奠定基础。为便于回顾，我们将评估框架形式化为元组 E = (C, B, A, J)。令 M 表示目标模型，它根据图像-文本输入对 (I, T) 生成响应 r ∈ R。

- • 类别 (C)：一组 n 个敏感域 C = {c₁, ..., cₙ}，其中模型输出必须受到约束以确保安全。
- • 意图/行为 (B)：一组具体的有害意图 B = ⋃_{c∈C} B_c，其中每个 b ∈ B_c 代表类别 c 内一个有害目标的具体实例。
- • 对抗攻击 (A)：一组函数 f ∈ A，将良性输入映射到对抗输入 (I′, T′)，优化以利用模型失调，使得 M(I′, T′) 与目标行为 b 对齐。
- • 评判器 (J)：一个分类器 J: R × B → {0, 1}，将模型响应 r 和意图 b 映射到二元成功指标，其中 J(r, b) = 1 表示成功对抗利用。

附录 D（https://arxiv.org/html/2606.24388#A4）总结了对抗攻击基准的时间演变。下面我们详细回顾包含在这些基准中或独立发布的不同对抗攻击数据集是如何演变的。

### 2.1 早期多模态对抗攻击数据集的演变  

对语言和多模态模型对抗攻击的研究通过一系列日益全面的数据集逐步发展。早期的 VAJM [16](https://arxiv.org/html/2606.24388#bib.bib16) 工作引入了一个包含 32,226 个样本的数据集，侧重于与性别、种族和人类身份相关的退化。这些样本包括来自 40 个行为类别的视觉对抗示例，攻击主要通过提示调优技术生成。后续工作扩展了攻击的规模和多样性。

JailBreakV-28K [19](https://arxiv.org/html/2606.24388#bib.bib19) 数据集不仅对初始有害提示应用攻击，还扩展到更广泛的行为模式。它包括 20,000 个基于文本的越狱提示和 8,000 个基于图像的示例。这些攻击源自 RedTeam2K [19](https://arxiv.org/html/2606.24388#bib.bib19) 基准，该基准覆盖约 2,000 个行为，涉及 16 个类别。文本攻击使用 GCG [17](https://arxiv.org/html/2606.24388#bib.bib17)、认知过载、现实世界的越狱提示模板和 PAP [28](https://arxiv.org/html/2606.24388#bib.bib28) 等方法生成，而视觉攻击则利用 Stable Diffusion 和排版图像技术。

MM-SafetyBench [2](https://arxiv.org/html/2606.24388#bib.bib2) 数据集进一步推进了多模态评估，引入了 5,040 个文本-图像对，源自 1,680 个行为，覆盖 13 个类别。与此同时，Multiturn Human Jailbreaks [14](https://arxiv.org/html/2606.24388#bib.bib14) 数据集探索了迭代攻击策略，包含 2,912 个攻击，结合了自动方法（包括 AutoDAN [29](https://arxiv.org/html/2606.24388#bib.bib29)、AutoPrompt [30](https://arxiv.org/html/2606.24388#bib.bib30)、GCG [17](https://arxiv.org/html/2606.24388#bib.bib17)、GPTFuzzer [31](https://arxiv.org/html/2606.24388#bib.bib31) 和 PAIR [32](https://arxiv.org/html/2606.24388#bib.bib32)）生成。

SafeBench [33](https://arxiv.org/html/2606.24388#bib.bib33) 通过纳入 9,200 个样本（包括 2,300 个多模态对）扩展了评估设置，并引入了音频模态。它在对抗和非对抗条件下评估模型，使用了诸如 LPT [34](https://arxiv.org/html/2606.24388#bib.bib34)、PAP [28](https://arxiv.org/html/2606.24388#bib.bib28) 和 BAP [8](https://arxiv.org/html/2606.24388#bib.bib8) 等攻击策略。值得注意的是，它旨在评估即使在没有显式攻击的情况下的安全风险。

MMJ 数据集源自 MMJ 基准 [3](https://arxiv.org/html/2606.24388#bib.bib3)，包含 1,000 个对抗示例，使用了 FigStep [7](https://arxiv.org/html/2606.24388#bib.bib7)、MM-SafetyBench [2](https://arxiv.org/html/2606.24388#bib.bib2)、HADES [18](https://arxiv.org/html/2606.24388#bib.bib18)、ADV-16 [35](https://arxiv.org/html/2606.24388#bib.bib35)、ADV-64 [35](https://arxiv.org/html/2606.24388#bib.bib35)、ADV-inf [35](https://arxiv.org/html/2606.24388#bib.bib35)、ImgJP [36](https://arxiv.org/html/2606.24388#bib.bib36) 和 AttackVLM [37](https://arxiv.org/html/2606.24388#bib.bib37) 等方法生成。这项工作突出了过度保守防御的一个关键局限性：认为拒绝所有提示的系统在实际中并不实用。

BAVI-Bench [12](https://arxiv.org/html/2606.24388#bib.bib12) 显著扩展了对抗评估规模，包含 316k 个对抗视觉-指令样本。它包括四种类型的基于图像的 B-AVI、十种类型的基于文本的 B-AVI，以及九个类别的内容偏见（例如性别、暴力、文化和种族偏见）。该基准使用 PAR [38](https://arxiv.org/html/2606.24388#bib.bib38)、Boundary [39](https://arxiv.org/html/2606.24388#bib.bib39) 和 SurFree [40](https://arxiv.org/html/2606.24388#bib.bi) 等攻击来评估鲁棒性。

相似文章

RedBench：大型语言模型综合红队测试通用数据集

arXiv cs.CL

RedBench 引入了一个通用数据集，聚合了 37 个基准数据集，包含 29,362 个样本，涵盖 22 个风险类别和 19 个领域，用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题，并提供了基准、评估代码和开源资源，用于评估 LLM 对对抗提示的鲁棒性。

面向自然语言理解任务的混合对抗防御框架

arXiv cs.CL

来自南安普顿大学和曼彻斯特大学的研究人员提出了一种面向大语言模型的混合对抗防御框架，该框架将基于熵、基于不确定性和基于几何的模型相结合，旨在同时应对自然语言理解任务中的幻觉问题和对抗性攻击漏洞，最终实现了高达 64.92% 的对抗鲁棒性提升和 62.27% 的攻击成功率降低。

Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

Hugging Face Daily Papers

# Paper page - Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs Source: [https://huggingface.co/papers/2605.07447](https://huggingface.co/papers/2605.07447) ## Abstract SAEgis detects adversarial attacks on vision\-language models using sparse autoencoders trained for reconstruction, achieving strong performance across domains without additional training\. [Vision\-language models](https://huggingface.co/papers?q=Vision-language%20models)\(VLMs\) have advan

大型语言模型的信息论对抗训练

arXiv cs.LG

本文介绍了 WARDEN，一种用于大型语言模型的分布鲁棒对抗训练框架。该框架利用 f-散度动态调整对抗样本的权重，在显著降低攻击成功率的同时保持了计算效率。

聆听未言之语：针对声学对抗攻击的语言模型先验