安全独处,危险共处:当良性图像组合时防范隐性毒性
摘要
本文定义了多图像隐性毒性(MIIT),即单独无害的图像组合后产生毒性,并提出了MiShield,一个通过渐进式蒸馏推理监督训练的模型来检测MIIT。实验表明,MiShield-8B优于现有的审核服务。
arXiv:2607.00576v1 公告类型:新
摘要:多图像内容已成为社交媒体中日益普遍的视觉交流形式,由此引发了一个新的安全问题——多图像隐性毒性(MIIT),即每张图像单独看时看似无害,但联合解读时会产生有害语义。由于每张图像缺乏明确的危险线索,MIIT对现有的商业审核API和模型尤其具有挑战性。本文旨在研究如何识别MIIT。我们首先给出了MIIT的形式化定义,并分析了其检测的三个关键挑战。为了缓解该领域数据稀缺的问题,我们通过自动生成流程构建了MIIT-dataset,这是一个仅包含图像的、覆盖七个代表性风险类别的多图像安全数据集。最后,我们通过渐进式蒸馏推理监督训练了MiShield,使其能够生成安全判断,并对导致危害的相关实体进行明确分析。实验表明,MiShield-8B模型优于代表性的审核服务甚至更大规模的模型,揭示了其对于这种广泛使用的视觉格式的有效性和实用价值。警告:本文包含潜在敏感内容。
查看缓存全文
缓存时间: 2026/07/02 05:37
# 单独安全,合并危险:当良性图像组合时防范隐式毒性
来源:https://arxiv.org/html/2607.00576
## 单独安全,合并危险:当良性图像组合时防范隐式毒性
Jiaxian Lv¹,∗, Shiyao Cui¹,∗, Yingkang Wang¹, Guoxin Wu¹, Qingling Zhang¹, Minlie Huang¹,†
¹清华大学计算机科学与技术系对话式AI(CoAI)实验室
###### 摘要
多图像内容已成为社交媒体中视觉交流的一种日益普遍形式,由此引发了一个新的安全问题——多图像隐式毒性(MIIT):每张图像单独看是安全的,但多张图像联合解读时会产生有害语义。由于每张图像缺乏明确的风险线索,现有商业审核API和模型在处理MIIT时面临巨大挑战。本文旨在研究如何识别MIIT。我们首先对MIIT进行正式定义,并分析其检测的三大关键挑战。为缓解该领域数据稀缺问题,我们通过自动化生成管道构建了MIIT-dataset——一个仅包含图像的多图像安全数据集,涵盖七类代表性风险类别。最后,我们训练了MiShield模型,该模型通过逐步蒸馏推理监督,能够生成安全判断,并附带对导致危害的相关实体的明确分析。实验表明,MiShield-8B模型的性能优于代表性审核服务甚至更大规模模型,揭示了其对此广泛使用视觉格式的有效性和实用价值。**警告:本文包含可能敏感的内容。**
¹∗共同第一作者。
²†通讯作者。
## 1 引言
参见图注
图1:MIIT示例。
多图像内容,即由多张语义相关图像组成的视觉表达,已成为在线交流中日益普遍的形式 (Li et al., 2026)。通过整合互补视觉线索,它可以传达比单图像内容更丰富的含义,现已广泛应用于社交媒体平台以分享观点和叙事 (CaasData, 2022; USDA Foreign Agricultural Service, 2025)。
虽然多图像内容实现了更具语境化的故事讲述,但它也引发了一个新的安全问题:多图像隐式毒性(MIIT)——毒性采用更广泛的审核意义,指代我们安全分类法所涵盖的不安全语义。具体来说,单张图像可能看起来是安全的,但只有当多张图像联合解读时才会产生有害语义。如图1所示,三张图像分别描绘了散落的药片、一个空药瓶和一个躺下的人,每张单独看都是安全的。然而,它们组合在一起却隐式传达了一种药物过量的自杀场景。随着以图像为中心的社交平台在全球普及,此类风险可能日益常见,引发对在线安全的担忧。
尽管识别多图像隐式毒性日益重要,现有审核方法仍存在困难。由于每张图像单独看可能安全,且风险线索分散在各图像中,单图像审核服务往往无法捕捉此类毒性。即使将多张图像拼接成一张,我们使用OpenAI Omni-Moderation (OpenAI, 2026b)的初步研究仅检测到16%的此类案例。虽然多模态大语言模型(MLLMs)提供了一个有潜力的替代方案,但其跨图像推理能力有限且计算成本高,阻碍了实际部署 (Wang et al., 2024; Meng et al., 2024; Li et al., 2026)。
考虑上述问题,本文旨在从三个方面研究如何识别多图像隐式毒性(MIIT)。
1) 正式定义MIIT并分析其检测挑战。作为一种新兴安全问题,我们提供MIIT的正式定义并系统分析其关键挑战,为审核和未来研究提供见解。
2) 使用自动构建管道构建全面数据集MIIT-dataset。为缓解此类数据资源的稀缺性,我们构建了一个自动数据构建管道,从特定风险场景出发,通过风险线索分离推导出MIIT案例,最终得到涵盖7个风险类别的多图像实例。
3) 开发MiShield用于可解释的MIIT检测。为促进此类有毒内容的检测,我们使用结构化推理轨迹训练MiShield,使其能够在图像间进行推理,把握安全判断的关键实体,并提供可解释的毒性分析。
综上所述,我们初步尝试研究多图像隐式毒性问题——安全图像组合时产生隐式有害语义。通过精心整理的1,434个实例,我们训练MiShield赋予模型捕捉和推理跨图像危险线索的能力。训练后,模型展现出强大的多图像安全判断能力,检测准确率超过闭源GPT-5.4 (OpenAI, 2026a)模型,使其在实际应用中更具实用性。
## 2 预备知识
### 2.1 多图像隐式毒性
我们探讨由多张单独安全图像的联合解读所产生的毒性,首先澄清两个重要术语。
1) **安全图像**:单独查看时符合社区安全指南,即不含明确的有害视觉元素(如仇恨符号、裸体或有害行为)。
2) **多图像隐式毒性**:指由良性图像组合产生的毒性,对个人或社区造成伤害。
参见图注
图2:各类风险类别的MIIT示例。
### 2.2 为何难以检测
检测多图像隐式毒性由于三个原因而具有挑战性。
1) **单独安全**:由于每张图像单独是安全的,缺乏明确的有害线索,单图像审核容易产生漏报。
2) **线索分散**:风险线索分散在各图像中,需要跨图像聚合以揭示超出单个图像的风险。
3) **风险实体定位**:风险源于特定的视觉实体及其关联关系,需要过滤掉无关或弱相关的连接。
### 2.3 风险类别
受之前单模态和多模态安全审核研究启发 (Chen et al., 2026; Liu et al., 2023; Hu et al., 2025),我们定义为多图像安全定义了七个风险类别,如图2所示,包括:**血腥与令人不适内容**、**管制商品**、**性内容**、**暴力与冲突**、**金融与经济犯罪**、**自残**以及**仇恨与极端主义**。这些类别定义了标注和评估的目标风险空间,详细定义见附录C。
## 3 数据集构建
我们构建了包含1,434个不安全实例的MIIT-dataset。表1展示了类别分布。大多数不安全实例由以下管道生成,提示词列于附录F。
### 3.1 数据收集
为丰富MIIT-dataset的视觉和语义多样性,我们从BLINK (Fu et al., 2024) 采样104个多图像实例,从MUIRBENCH (Wang et al., 2024) 采样536个实例。通过第3.3节描述的标注流程,其中一些被标注为不安全。值得注意的是,我们没有直接继承这些基准的原始标注;所有采样实例均根据我们的安全分类法并按照第3.3节描述的质量控制流程进行了重新标注。
### 3.2 数据生成
**风险实例生成。** 为丰富数据集多样性,我们首先力求获得尽可能多样的描述。给定上述抽象风险类别,我们指示先进的大语言模型将每个类别扩展为更具体的子类别及相关具体场景。
**风险线索分离。** 我们将每个场景分解为多个视觉上可定位的线索,并将每个线索分配到单独的图像中,满足以下要求:1)每张图像应描绘明确的视觉对象;2)每张图像单独查看时应是安全的;3)图像序列应保持风格一致,并能反映给定的原始场景。
**图像生成。** 我们使用 Qwen-Image (Wu et al., 2025) 和 FLUX.1-dev (Labs et al., 2025; Labs, 2024) 进行图像生成,其中每张图像的描述直接用作文本提示,不做任何额外修改。
### 3.3 质量检查
**自动检查。** 为确保单张图像安全而组合后有害,我们使用三种先进的多模态大语言模型进行交叉验证,即 Gemini 3.1 Pro (Google, 2026)、GPT-5.4 (OpenAI, 2026a) 和 Claude Opus 4.6 (Anthropic, 2026),仅在所有预测一致时分配自动标签。
**人工检查。** 由于多模态大语言模型在许多样本上判断不一致,我们进一步招募四位博士级标注员进行人工验证。每个图像序列由两位标注员独立审核。我们在附录A中描述了标注的协议和流程。
| 类别 | 实例数 | 比例 (%) |
|------|--------|----------|
| 金融与经济犯罪 | 130 | 9.07 |
| 血腥与令人不适 | 179 | 12.48 |
| 仇恨与极端主义 | 270 | 18.83 |
| 管制商品 | 289 | 20.15 |
| 自残 | 207 | 14.44 |
| 性内容 | 120 | 8.37 |
| 暴力与冲突 | 239 | 16.67 |
| **总计** | **1,434** | **100.00** |
表1:MIIT-dataset中七种风险的分布。
## 4 方法
在本节中,我们首先对多图像隐式毒性的检测进行形式化定义。由于MIIT检测需要模型聚合分散的视觉线索并推理跨图像关系,我们构建结构化的推理分析作为监督信号。接着在第二小节描述如何构建推理分析。整个过程在图3中进行了可视化描述。
参见图注
图3:所提出的仅图像多图像安全数据集及推理轨迹构建概览。
### 4.1 形式化定义
给定一个图像序列 I = {I₁, ..., Iₙ} 和一个二元安全标签 y ∈ {Safe, Unsafe},MIIT检测旨在训练一个模型 πθ,使其预测整个图像序列的安全标签并生成相应的安全性分析:
(ŷ, r̂) = πθ(I), (1)
其中 ŷ 表示预测的安全标签,r̂ 表示解释安全相关的视觉线索和跨图像关系的文本分析。
### 4.2 训练数据的渐进式构建
我们提出一种渐进式蒸馏管道,将先进教师模型的标注能力转化为多图像安全检测的结构化监督信号。具体来说,教师模型首先定位单个图像中的风险相关实体,然后识别这些实体间有效的跨图像关联,最后得出整体的安全推论,解释关联的视觉线索如何支持最终的安全标签。直接使用教师生成的完整轨迹作为监督可能引入大量冗余。因此,我们进一步应用**渐进式压缩**删除冗余的视觉描述和弱关联关系,将冗长的轨迹蒸馏为紧凑且信息密集的参考分析。
**实体定位。** 模型首先识别每张图像中的关键语义实体,包括物体、人物、动作、手势和情绪状态。为确保足够的视觉覆盖,限制每张图像提取3到5个实体。
**跨图像关联。** 模型随后识别相邻或逻辑相关图像间实体之间的语义关系。这些关系捕捉实体如何相互交互、补充或因果支持,从而形成任何单张图像中都不明确的不安全组合语义。
**整体安全推断。** 模型综合定位的实体和跨图像关系来推断整体的安全含义。此步骤产生一个推理性分析,解释组合的多图像语义如何得出最终的安全标签。
**渐进式压缩。** 在生成完整的逐步推理轨迹后,我们通过仅保留支持最终安全推断的实体和关系,将其压缩为简洁的参考分析。通过渐进式语义压缩,完整的推理过程被蒸馏为恰好三个句子,依次捕捉安全关键实体、跨图像关系线索以及最终的整体安全判断。这移除了冗余的视觉细节和弱关联连接,使模型能够学习紧凑的定位、关联推理和安全推断信号。
### 4.3 模型训练
我们的目标是教会模型在给定多图像输入 I 和安全审核指令提示 P 的情况下,预测安全标签 y 及其支持性分析 r。为此,我们将目标输出格式化为一个结构化序列,该序列由参考分析后跟安全标签组成,并使用标准的下一个 token 预测目标对模型进行优化。
L = -E_{(I,P,r,y)~D} log πθ(r,y | I, P) (2)
其中 D 表示训练集。该目标鼓励模型首先识别并关联分散的视觉线索,然后基于聚合的多图像语义做出安全决策,而不是直接依赖孤立的单图像信号。
## 5 实验
### 5.1 实现细节
**训练集。** 我们构建了一个平衡的二元数据集,将1,434个Unsafe实例与同等数量的经过验证的Safe实例配对,并将其划分为不相交的训练集和测试集。训练集包含2,294个实例,Unsafe和Safe实例数量相等。Safe样本被收集后由人工标注员验证。它们作为负控制,用于评估模型是否会将良性的多图像输入过度组合成不安全叙事。
**训练配置。** 所有实验均使用 MS-Swift(一个用于基础模型可扩展轻量级微调的开源框架 (Zhao et al., 2024b))在8张 NVIDIA A100 80GB GPU上实现。我们采用 Qwen3-VL-8B-Instruct (Qwen Team, 2025b) 作为基础模型,并进行5个epoch的有监督微调。相似文章
更难防御:面向中文的通过隐式增强与混淆重写实现的毒性攻击
本文提出了CITA框架,用于生成中文隐式毒性攻击,以评估和改进大语言模型的毒性检测器,在测试模型上实现了较高的攻击成功率。
DriftGuard:面向毒性审核演化的安全感知多监控检测与选择性自适应方法
介绍 DriftGuard,一个安全感知的自适应审核框架,使用多个监控器检测细微的、与安全相关的分布偏移,并通过硬混合自适应集选择性更新模型,从而提高在演进数据集上的毒性召回率。
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。
多语言语言模型中有毒内容检测与缓解策略综述
本综述综合了关于多语言大语言模型中有毒内容检测与去毒化研究,梳理了威胁模型、任务形式、检测方法和缓解策略,同时指出了持续存在的挑战,如语言覆盖不均衡以及危害定义的文化依赖性。
应对现实世界中不良内容检测的整体方法
OpenAI 展示了一套全面的框架,通过精心设计分类体系、控制数据质量、构建主动学习流程以及采用防止过拟合的技术来构建鲁棒的内容审核系统。该方法能够检测包括性内容、仇恨言论、暴力和自伤在内的多个类别的不良内容,性能超越现有的现成模型。