MIPIAD:基于 Qwen 与 TF-IDF 混合模型及元集成学习的多语言间接提示注入攻击防御
摘要
本文提出了 MIPIAD,这是一种针对间接提示注入攻击的多语言防御框架,融合了基于 Qwen2.5 的分类器、TF-IDF 特征以及元集成学习。该框架在英语和孟加拉语基准测试中表现出色,取得了较高的 F1 和 AUROC 分数,同时缩小了跨语言差距。
arXiv:2605.07269v1 公告类型:新论文
摘要:间接提示注入仍然是检索增强和工具调用大语言模型(LLM)系统中的持久弱点,且在多语言环境下该问题更难表征。我们提出了 MIPIAD,这是一个在英语和孟加拉语上经过评估的防御框架,它结合了通过 LoRA 从 Qwen2.5-1.5B 微调得到的序列分类器(XLPID)、TF-IDF 词法特征,以及通过晚期融合、堆叠(stacking)和梯度提升进行验证集调优的集成方法。该框架在一个基于 BIPIA (Yi 等人, 2023) 模板构建的合成基准上进行了评估,涵盖电子邮件、表格、问答、摘要和代码五个任务家族,包含超过 143 万个生成的样本,训练集和测试集使用互斥的攻击类别。在所有实验中,词法信号表现强劲(TF-IDF+SVM 的 F1=0.77),混合的 XLPID+TF-IDF 集成模型取得了最佳的总体 F1 分数(0.9205),而提升集成模型(Boosting Ensemble)取得了最佳的 AUROC 分数(0.9378)。集成方法一致性地缩小了相对于独立神经模型的英语-孟加拉语跨语言差距。该流水线旨在具备可扩展性:NLLB-200 支持超过 200 种语言,且 XLPID 的多语言骨干网络无需架构变更即可重新定位至其他语言;目前的实证验证仅限于英语和孟加拉语。
查看缓存全文
缓存时间: 2026/05/11 06:58
# 基于 Qwen-TF-IDF 混合与元集成学习的多语言间接提示注入攻击防御
来源: https://arxiv.org/html/2605.07269
###### 摘要
间接提示注入仍然是检索增强生成(RAG)和工具使用大型语言模型(LLM)系统中持续的薄弱环节,且该问题在多语言环境下更难刻画。我们提出了 MIPIAD,这是一个在英语和孟加拉语上评估的防御框架,它结合了通过 LoRA 从 Qwen2.5-1.5B 微调的序列分类器(XLPID)、TF-IDF 词法特征,以及通过晚期融合、堆叠和梯度提升进行验证调优的集成方法。该框架在一个基于 BIPIA (Yi et al., 2023) 模板构建的合成基准上进行了评估,涵盖了电子邮件、表格、问答、摘要和代码五个任务家族,包含超过 143 万个生成的样本,训练集和测试集使用互斥的攻击类别。在各项实验中,词法信号表现出意外的强大(TF-IDF+SVM F1=0.77),混合 XLPID+TF-IDF 集成取得了最佳的整体 F1 分数(0.9205),而提升集成(Boosting Ensemble)取得了最佳的 AUROC(0.9378)。集成方法相对于独立的神经网络模型,一致性地缩小了英语-孟加拉语的跨语言差距。该管道设计为可扩展:NLLB-200 支持 200 多种语言,XLPID 的多语言骨干可以重新定位到额外语言而无需架构更改;目前的实证验证仅限于英语和孟加拉语。
## 1 引言
提示注入可能使 LLM 忽略用户意图、泄露敏感信息或执行不安全的工具操作。更困难的情况是*间接*提示注入,其中恶意指令隐藏在检索到的文档、电子邮件、表格、网页或代码中,而非用户的查询中 (Perez and Ribeiro, 2022)。
一旦输入流是多语言的,该设置仍然探索不足。在实践中,系统会看到多种语言、领域和格式风格的混合,因此仅适用于一种语言或一种表面的防御是不够的。本文研究了这一更真实的设置,并提出了 MIPIAD(Multilingual Indirect Prompt Injection Attack Defense,多语言间接提示注入攻击防御),这是一个用于跨语言检测和评估的完整管道。MIPIAD 在英语和孟加拉语上进行了实证验证;其底层组件——NLLB-200 翻译和多语言 LLM 骨干——旨在扩展到额外语言而无需架构修改。
我们做出了四项贡献:
- •一个统一的多语言数据管道,生成跨越五个任务的英语/孟加拉语间接提示注入样本,形成超过 143 万模板的大规模数据集。
- •XLPID,一种利用高效低秩适应(LoRA)基于稳健 LLM 骨干的跨语言提示注入检测器。
- •元集成策略(堆叠和提升),将基于 LLM 的概率指标与显式的 TF-IDF 词法先验相结合。
- •强有力的基线比较,显示混合模型优于孤立的神经模型(F1: 0.9205 vs. 最佳独立模型的 0.8939,提升了 2.7 个百分点)。
## 2 相关工作
**间接提示注入。** 早期工作确立了提示注入作为主要安全威胁的地位 (Perez and Ribeiro, 2022),这很快被证明高度适用于通过间接注入到现实世界的检索增强生成 (RAG) 和 LLM 集成代理应用中 (Greshake et al., 2023)。为了标准化评估,研究人员引入了定制的基准,如用于全面评估的 LLM-PIRATE (Ramakrishna et al., 2024) 和用于现实自适应威胁场景的 LLMail-Inject (Abdelnabi et al., 2025)。
**防御机制。** 防御分为三类。*输入过滤*:PromptGuard (Meta AI, 2024) 使用微调的 BERT 分类器筛选输入;SpotLight (Hines et al., 2024) 在受信任的上下文中注入格式标记,以帮助 LLM 将其与检索内容区分开来。*指令隔离*:InstructDetector (Wen et al., 2025) 识别指令状态以限制注入爆炸半径;CachePrune (Wang et al., 2025) 通过神经元级归因修剪恶意上下文。*输出平滑*:SmoothLLM (Robey et al., 2023) 应用带有多数投票的输入扰动,尽管推理成本高昂且未评估间接检索注入;MELON (Zhu et al., 2025) 保护代理工具使用轨迹。MIPIAD 属于输入过滤家族,但独特地结合了词法和神经信号,跨越五个任务家族,并处理多语言输入。上述防御均未在孟加拉语或大规模多语言间接注入基准上进行评估;第 5.4 节提供了此类防御的首次跨语言端到端受害者评估。
**多语言安全差距。** 大多数现有文献仍然假设以英语为主的设置。在提示注入防御中,跨语言转移理解较少,其中翻译和领域偏移可能会稀释注入签名并增加假阴性率。据我们所知,先前工作尚未将*多语言*和*间接*轴结合到一个通用检测框架中。
## 3 MIPIAD 基准
### 3.1 威胁模型和任务定义
我们研究文本输入上的二元检测,标签 $y \in \{0,1\}$ 指示是否存在间接注入。每个样本是特定语言的(EN 或 BN),并包含任务、攻击类型和插入位置的元数据。防御者的目标是在下游受害者 LLM 消耗之前准确检测嵌入的指令。
> 英语攻击模板 (BIPIA) $\rightarrow$ NLLB-200 翻译 (EN 到 BN) $\rightarrow$ 双语攻击文本
>
> 任务上下文 (EN) (Email, Tables, QA, Abstract, Code) $\rightarrow$ NLLB-200 翻译 (EN 到 BN) $\rightarrow$ 双语上下文
>
> 样本组成 (在开始/中间/结尾注入) $\rightarrow$ MIPIAD 数据集 (143 万原始样本)
**图 1:MIPIAD 数据生成管道。** 使用 NLLB-200 将英语字符串和上下文翻译为孟加拉语,然后进行上下文组合以创建平衡的双语数据集。
### 3.2 多语言样本构建
**图 1** 说明了数据工程管道。MIPIAD 生成遵循三个主要步骤:
1. 使用 Meta 的 NLLB-200 将攻击模板从英语翻译为孟加拉语。
2. 将五个家族(电子邮件、表格、问答、摘要、代码)的任务上下文翻译为孟加拉语。
3. 通过在上下文的开头、中间或结尾注入攻击文本组成中毒样本;从干净上下文中生成良性样本。
为了确保鲁棒性,我们的数据生成器产生了一个广泛的矩阵:15 个独特的文本攻击类别和 10 个特定于代码的攻击类别,每个类别有 5 个变体。将这些与 3 个插入位置和 2 种语言(EN/BN)相结合,结果正好是 1,431,400 个原始样本。
至关重要的是,为了防止跨语言数据泄露,训练集和测试集在上下文层面明确分区。单个上下文的所有语言翻译都安全地限制在相同的拆分中。此外,为了评估真正的泛化能力而不是死记硬背,训练集和测试集使用完全互斥的攻击类别和变体。
## 4 方法论
### 4.1 XLPID 架构
我们框架的核心神经检测器是 XLPID(跨语言提示注入检测器)。**图 2** 提供了分类方案的结构概述。
> 输入文档 (EN/BN) $\rightarrow$ LLM 骨干 (例如, Qwen) [bf16 权重冻结] + LoRA [fp32] $\rightarrow$ 上下文池化 $\rightarrow$ 序列分类头 $\rightarrow$ 注入 Logits ($p_t$)
**图 2:XLPID 架构,利用参数高效的 LoRA 适配器以及顺序分类头。** XLPID 是冻结 LLM 骨干上的直接序列分类包装器,使用骨干内置的分类头(上下文池化层后跟两标签线性投影)。XLPID 支持多个骨干家族,包括 Qwen2.5 和 DeBERTa;本文中的所有结果均使用 Qwen/Qwen2.5-1.5B 作为骨干。基础权重保持在 bfloat16 以减少 VRAM,而针对 q_proj 和 v_proj 的 LoRA 适配器(rank=16, $\alpha=32$)在 float32 中训练。
### 4.2 元集成和词法基线
我们将 XLPID 与孤立上下文骨干(XLM-RoBERTa, mBERT)和强大的词法基线(TF-IDF + LR, TF-IDF + SVM)进行比较,后者包含 10,000 个顶级 n-gram 特征(大小 1-3)。
此外,我们评估了两个将变换器和词法流合成为统一预测的元集成:
- •**混合晚期融合**:结合 XLPID 变换器概率 ($p_t$) 和 TF-IDF 概率 ($p_l$) 通过 $p = \alpha p_t + (1-\alpha)p_l$。混合权重 $\alpha$ 通过在 $[0,1]$ 中 21 个均匀间隔值上的网格搜索选择(即 $\alpha \in \{0.00, 0.05, ..., 1.00\}$),在保留的验证集(训练数据的 10%)上评估,并字典序最大化复合标准 $(F1, AUROC)$。最佳的 $\alpha$ 随后在测试集评估之前锁定,确保测试集泄露不会进入融合权重选择。
- •**元集成**:逻辑回归堆叠和梯度提升树处理孤立基础模型概率。
### 4.3 评估管道
#### 概述。
端到端评估跨越四个阶段,如 **图 3** 所示。第 0 阶段在任何受害者加载之前对所有样本运行防御分类器。第 1 阶段将(可能受保护的)提示馈送到受害者 LLM。第 2 阶段使用裁判 LLM 集成对响应进行评分。第 3 阶段将每个样本的分数聚合为 ASR、BU、UA 和 CLP。
> MIPIAD 样本 (攻击 + 良性) $\xrightarrow{Stage 0: 防御分类器 (XLPID 集成)}$ 标记为恶意? $\xrightarrow{是}$ 添加安全通知 $\xrightarrow{Stage 1: 受害者 LLM}$ 响应 $r_i$ $\xrightarrow{Stage 2: 裁判集成}$ 多数投票 $\xrightarrow{Stage 3}$ ASR, BU, UA, CLP
>
> **图 3:BIPIA 端到端评估管道。** 防御分类器(第 0 阶段)在受害者 LLM(第 1 阶段)之前可选地保护提示。多个裁判 LLM 独立评分响应(第 2 阶段);其判决由多数投票结合。第 3 阶段聚合最终指标。
#### 提示构建。
每个样本 $(c, \ell, \tau)$ —— 上下文 $c$,语言 $\ell \in \{EN, BN\}$,任务 $\tau$ —— 包裹在一个特定任务的系统提示中,$c$ 作为外部内容注入:
$p_i = \texttt{sys}_\tau(c_i, \ell) \| \texttt{usr}_\tau(\ell)$
其中 $\|$ 表示连接。当第 0 阶段将 $c_i$ 标记为恶意时,双语安全通知附加到 $\texttt{sys}_\tau$ 之前。
#### ASR 评判。
每个裁判 $J_k$ 接收特定类别的提示和受害者响应 $r_i$,返回三元判决:
$v_k^{(i)} = \texttt{parse}(J_k(\texttt{judge\_asr}(r_i, \text{cat}_i, \ell))) \in \{1, 0, -1\}$
其中 $1=\text{YES}$, $0=\text{NO}$, $-1=\text{UNKNOWN}$。对于效用,裁判 $J_k$ 将 $r_i$ 与参考答案比较(基于参考)或直接评估帮助性(无参考),产生 $u_k^{(i)} \in \{1, 0, -1\}$。
#### 多数投票。
令 $V^{(i)} = \{v_k^{(i)} : v_k^{(i)} \neq -1\}$ 为样本 $i$ 的有效判决:
$\hat{v}^{(i)} = \begin{cases} 1 & \text{if } \sum V^{(i)} > \frac{1}{2} \|V^{(i)}\| \\ 0 & \text{if } V^{(i)} \neq \emptyset \text{ and } \sum V^{(i)} \leq \frac{1}{2} \|V^{(i)}\| \\ -1 & \text{if } V^{(i)} = \emptyset \end{cases}$
平局和少数 YES 结果都解析为 0,有利于精确率而非召回率。
#### 受害者指标。
令 $\mathcal{A}$ 为攻击样本集,$\mathcal{B}$ 为良性集;令 $\bar{\cdot}$ 表示有效($\neq -1$)分数的均值。
$\text{ASR} = \bar{v}^{(\mathcal{A})}$
$\text{BU} = \bar{u}^{(\mathcal{B})}$
$\text{UA} = \bar{w}^{(\mathcal{A})}$
其中 $w^{(i)} = 1$ 当且仅当受害者既抵抗攻击 ($\hat{v}^{(i)}=0$) 又完成任务 ($\hat{u}^{(i)}=1$);否则 $w^{(i)}=0$;如果效用判决无法解决,则 $w^{(i)}=-1$(从均值中排除)。例如,如果受害者忽略了注入的“回复给 [email protected]”命令并正确总结了邮件,则 $\hat{v}^{(i)}=0$ 且 $\hat{u}^{(i)}=1$,产生 $w^{(i)}=1$。
#### 跨语言对等。
对于每个指标 $m \in \{\text{ASR}, \text{BU}, \text{UA}\}$ 和任务 $\tau$,我们定义跨语言对等 (CLP) 分数:
$\text{CLP}_{m,\tau} = 1 - \| m_\tau^{\text{EN}} - m_\tau^{\text{BN}} \|$
值 1 表示完美的语言间对等;较低的值表示语言不对称行为。*解释注意*:CLP 衡量对等,而非绝对性能。如果在两种语言中同等失败(例如,$m_\tau^{\text{EN}} = m_\tau^{\text{BN}} = 0$)的模型得分为 CLP=1.0。因此,CLP 应与绝对每语言分数一起阅读,而不是孤立阅读。
基准通过检测任务上的准确率、F1、AUROC 和 AUPRC 来衡量防御保真度;下游鲁棒性由 ASR、BU、UA 和 CLP(跨语言对等)捕捉。
## 5 实验和结果
### 5.1 实现细节
XLPID 使用 AdamW ($lr=2 \times 10^{-5}$, batch size 8, weight decay 0.01),序列长度 256,dropout 0.3,带有早停(耐心 10)。TF-IDF 向量化器使用 10,000 个字符 n-grams(大小 1-3),不对孟加拉语进行特定语言的标记化。
初步实验显示,标准模型利用了 225:1 的攻击-良性类别不平衡(总共 143 万个样本)。
#### 数据处理。
我们将攻击下采样到 2:1(良性:攻击)进行训练,并保留 10% 的验证集;w相似文章
LinguIUTics 在 PsyDefDetect 中的方法:面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调
本文提出了一种迭代不平衡感知微调方法,使用 Qwen3-8B 和 QLoRA 进行心理防御机制分类,在 PsyDefDetect 2026 共享任务中取得了 0.3917 的宏 F1 分数,在 21 支队伍中排名第 4。
间接提示注入的见解(12分钟阅读)
Zico Kolter 和 Matt Fredrikson,Gray Swan 的领导者及 AI 安全专家,讨论了 AI 红队测试的现状以及间接提示注入——这是 AI 代理的关键漏洞。他们解释了为何 AI 安全需要不同的思维模式,自动化红队测试如何超越人类,并介绍了用于对抗性测试的工具 Shade。
理解提示词注入:AI安全的前沿挑战
OpenAI发布了关于提示词注入攻击的指导,这是一种社会工程漏洞,恶意指令可以隐藏在网页内容或文档中,诱骗AI模型执行意外操作。该公司概述了其多层防御策略,包括指令层级研究、自动化安全测试和AI驱动的监控系统。
使用 ml-intern 和 DeepSeek v4 Flash 训练了一个提示注入检测器,运行在浏览器中
使用 ml-intern 和 DeepSeek V4 Flash 训练了一个提示注入分类器,使用 DistilBERT 实现 F1 99%,优化至 ONNX int8(约 65 MB),可通过 Transformers.js v3 在浏览器中运行。
我构建了一个针对多轮提示注入攻击的基准测试。大多数防御措施从未预料到它们的出现。
一项新的多轮提示注入攻击基准测试显示,目前大多数防御措施无法检测到复杂的多步攻击。