MIPIAD：基于 Qwen 与 TF-IDF 混合模型及元集成学习的多语言间接提示注入攻击防御

arXiv cs.CL 2026/05/11 04:00 论文

prompt-injection llm-security multilingual defense-framework ensemble-learning qwen research

摘要

本文提出了 MIPIAD，这是一种针对间接提示注入攻击的多语言防御框架，融合了基于 Qwen2.5 的分类器、TF-IDF 特征以及元集成学习。该框架在英语和孟加拉语基准测试中表现出色，取得了较高的 F1 和 AUROC 分数，同时缩小了跨语言差距。

arXiv:2605.07269v1 公告类型：新论文摘要：间接提示注入仍然是检索增强和工具调用大语言模型（LLM）系统中的持久弱点，且在多语言环境下该问题更难表征。我们提出了 MIPIAD，这是一个在英语和孟加拉语上经过评估的防御框架，它结合了通过 LoRA 从 Qwen2.5-1.5B 微调得到的序列分类器（XLPID）、TF-IDF 词法特征，以及通过晚期融合、堆叠（stacking）和梯度提升进行验证集调优的集成方法。该框架在一个基于 BIPIA (Yi 等人, 2023) 模板构建的合成基准上进行了评估，涵盖电子邮件、表格、问答、摘要和代码五个任务家族，包含超过 143 万个生成的样本，训练集和测试集使用互斥的攻击类别。在所有实验中，词法信号表现强劲（TF-IDF+SVM 的 F1=0.77），混合的 XLPID+TF-IDF 集成模型取得了最佳的总体 F1 分数（0.9205），而提升集成模型（Boosting Ensemble）取得了最佳的 AUROC 分数（0.9378）。集成方法一致性地缩小了相对于独立神经模型的英语-孟加拉语跨语言差距。该流水线旨在具备可扩展性：NLLB-200 支持超过 200 种语言，且 XLPID 的多语言骨干网络无需架构变更即可重新定位至其他语言；目前的实证验证仅限于英语和孟加拉语。

查看原文

查看缓存全文

缓存时间: 2026/05/11 06:58

# 基于 Qwen-TF-IDF 混合与元集成学习的多语言间接提示注入攻击防御
来源: https://arxiv.org/html/2605.07269
###### 摘要

间接提示注入仍然是检索增强生成（RAG）和工具使用大型语言模型（LLM）系统中持续的薄弱环节，且该问题在多语言环境下更难刻画。我们提出了 MIPIAD，这是一个在英语和孟加拉语上评估的防御框架，它结合了通过 LoRA 从 Qwen2.5-1.5B 微调的序列分类器（XLPID）、TF-IDF 词法特征，以及通过晚期融合、堆叠和梯度提升进行验证调优的集成方法。该框架在一个基于 BIPIA (Yi et al., 2023) 模板构建的合成基准上进行了评估，涵盖了电子邮件、表格、问答、摘要和代码五个任务家族，包含超过 143 万个生成的样本，训练集和测试集使用互斥的攻击类别。在各项实验中，词法信号表现出意外的强大（TF-IDF+SVM F1=0.77），混合 XLPID+TF-IDF 集成取得了最佳的整体 F1 分数（0.9205），而提升集成（Boosting Ensemble）取得了最佳的 AUROC（0.9378）。集成方法相对于独立的神经网络模型，一致性地缩小了英语-孟加拉语的跨语言差距。该管道设计为可扩展：NLLB-200 支持 200 多种语言，XLPID 的多语言骨干可以重新定位到额外语言而无需架构更改；目前的实证验证仅限于英语和孟加拉语。

## 1 引言

提示注入可能使 LLM 忽略用户意图、泄露敏感信息或执行不安全的工具操作。更困难的情况是*间接*提示注入，其中恶意指令隐藏在检索到的文档、电子邮件、表格、网页或代码中，而非用户的查询中 (Perez and Ribeiro, 2022)。

一旦输入流是多语言的，该设置仍然探索不足。在实践中，系统会看到多种语言、领域和格式风格的混合，因此仅适用于一种语言或一种表面的防御是不够的。本文研究了这一更真实的设置，并提出了 MIPIAD（Multilingual Indirect Prompt Injection Attack Defense，多语言间接提示注入攻击防御），这是一个用于跨语言检测和评估的完整管道。MIPIAD 在英语和孟加拉语上进行了实证验证；其底层组件——NLLB-200 翻译和多语言 LLM 骨干——旨在扩展到额外语言而无需架构修改。

我们做出了四项贡献：

- •一个统一的多语言数据管道，生成跨越五个任务的英语/孟加拉语间接提示注入样本，形成超过 143 万模板的大规模数据集。
- •XLPID，一种利用高效低秩适应（LoRA）基于稳健 LLM 骨干的跨语言提示注入检测器。
- •元集成策略（堆叠和提升），将基于 LLM 的概率指标与显式的 TF-IDF 词法先验相结合。
- •强有力的基线比较，显示混合模型优于孤立的神经模型（F1: 0.9205 vs. 最佳独立模型的 0.8939，提升了 2.7 个百分点）。

## 2 相关工作

**间接提示注入。** 早期工作确立了提示注入作为主要安全威胁的地位 (Perez and Ribeiro, 2022)，这很快被证明高度适用于通过间接注入到现实世界的检索增强生成 (RAG) 和 LLM 集成代理应用中 (Greshake et al., 2023)。为了标准化评估，研究人员引入了定制的基准，如用于全面评估的 LLM-PIRATE (Ramakrishna et al., 2024) 和用于现实自适应威胁场景的 LLMail-Inject (Abdelnabi et al., 2025)。

**防御机制。** 防御分为三类。*输入过滤*：PromptGuard (Meta AI, 2024) 使用微调的 BERT 分类器筛选输入；SpotLight (Hines et al., 2024) 在受信任的上下文中注入格式标记，以帮助 LLM 将其与检索内容区分开来。*指令隔离*：InstructDetector (Wen et al., 2025) 识别指令状态以限制注入爆炸半径；CachePrune (Wang et al., 2025) 通过神经元级归因修剪恶意上下文。*输出平滑*：SmoothLLM (Robey et al., 2023) 应用带有多数投票的输入扰动，尽管推理成本高昂且未评估间接检索注入；MELON (Zhu et al., 2025) 保护代理工具使用轨迹。MIPIAD 属于输入过滤家族，但独特地结合了词法和神经信号，跨越五个任务家族，并处理多语言输入。上述防御均未在孟加拉语或大规模多语言间接注入基准上进行评估；第 5.4 节提供了此类防御的首次跨语言端到端受害者评估。

**多语言安全差距。** 大多数现有文献仍然假设以英语为主的设置。在提示注入防御中，跨语言转移理解较少，其中翻译和领域偏移可能会稀释注入签名并增加假阴性率。据我们所知，先前工作尚未将*多语言*和*间接*轴结合到一个通用检测框架中。

## 3 MIPIAD 基准

### 3.1 威胁模型和任务定义

我们研究文本输入上的二元检测，标签 $y \in \{0,1\}$ 指示是否存在间接注入。每个样本是特定语言的（EN 或 BN），并包含任务、攻击类型和插入位置的元数据。防御者的目标是在下游受害者 LLM 消耗之前准确检测嵌入的指令。

> 英语攻击模板 (BIPIA) $\rightarrow$ NLLB-200 翻译 (EN 到 BN) $\rightarrow$ 双语攻击文本
>
> 任务上下文 (EN) (Email, Tables, QA, Abstract, Code) $\rightarrow$ NLLB-200 翻译 (EN 到 BN) $\rightarrow$ 双语上下文
>
> 样本组成 (在开始/中间/结尾注入) $\rightarrow$ MIPIAD 数据集 (143 万原始样本)

**图 1：MIPIAD 数据生成管道。** 使用 NLLB-200 将英语字符串和上下文翻译为孟加拉语，然后进行上下文组合以创建平衡的双语数据集。

### 3.2 多语言样本构建

**图 1** 说明了数据工程管道。MIPIAD 生成遵循三个主要步骤：

1.  使用 Meta 的 NLLB-200 将攻击模板从英语翻译为孟加拉语。
2.  将五个家族（电子邮件、表格、问答、摘要、代码）的任务上下文翻译为孟加拉语。
3.  通过在上下文的开头、中间或结尾注入攻击文本组成中毒样本；从干净上下文中生成良性样本。

为了确保鲁棒性，我们的数据生成器产生了一个广泛的矩阵：15 个独特的文本攻击类别和 10 个特定于代码的攻击类别，每个类别有 5 个变体。将这些与 3 个插入位置和 2 种语言（EN/BN）相结合，结果正好是 1,431,400 个原始样本。

至关重要的是，为了防止跨语言数据泄露，训练集和测试集在上下文层面明确分区。单个上下文的所有语言翻译都安全地限制在相同的拆分中。此外，为了评估真正的泛化能力而不是死记硬背，训练集和测试集使用完全互斥的攻击类别和变体。

## 4 方法论

### 4.1 XLPID 架构

我们框架的核心神经检测器是 XLPID（跨语言提示注入检测器）。**图 2** 提供了分类方案的结构概述。

> 输入文档 (EN/BN) $\rightarrow$ LLM 骨干 (例如, Qwen) [bf16 权重冻结] + LoRA [fp32] $\rightarrow$ 上下文池化 $\rightarrow$ 序列分类头 $\rightarrow$ 注入 Logits ($p_t$)

**图 2：XLPID 架构，利用参数高效的 LoRA 适配器以及顺序分类头。** XLPID 是冻结 LLM 骨干上的直接序列分类包装器，使用骨干内置的分类头（上下文池化层后跟两标签线性投影）。XLPID 支持多个骨干家族，包括 Qwen2.5 和 DeBERTa；本文中的所有结果均使用 Qwen/Qwen2.5-1.5B 作为骨干。基础权重保持在 bfloat16 以减少 VRAM，而针对 q_proj 和 v_proj 的 LoRA 适配器（rank=16, $\alpha=32$）在 float32 中训练。

### 4.2 元集成和词法基线

我们将 XLPID 与孤立上下文骨干（XLM-RoBERTa, mBERT）和强大的词法基线（TF-IDF + LR, TF-IDF + SVM）进行比较，后者包含 10,000 个顶级 n-gram 特征（大小 1-3）。

此外，我们评估了两个将变换器和词法流合成为统一预测的元集成：

- •**混合晚期融合**：结合 XLPID 变换器概率 ($p_t$) 和 TF-IDF 概率 ($p_l$) 通过 $p = \alpha p_t + (1-\alpha)p_l$。混合权重 $\alpha$ 通过在 $[0,1]$ 中 21 个均匀间隔值上的网格搜索选择（即 $\alpha \in \{0.00, 0.05, ..., 1.00\}$），在保留的验证集（训练数据的 10%）上评估，并字典序最大化复合标准 $(F1, AUROC)$。最佳的 $\alpha$ 随后在测试集评估之前锁定，确保测试集泄露不会进入融合权重选择。
- •**元集成**：逻辑回归堆叠和梯度提升树处理孤立基础模型概率。

### 4.3 评估管道

#### 概述。

端到端评估跨越四个阶段，如 **图 3** 所示。第 0 阶段在任何受害者加载之前对所有样本运行防御分类器。第 1 阶段将（可能受保护的）提示馈送到受害者 LLM。第 2 阶段使用裁判 LLM 集成对响应进行评分。第 3 阶段将每个样本的分数聚合为 ASR、BU、UA 和 CLP。

> MIPIAD 样本 (攻击 + 良性) $\xrightarrow{Stage 0: 防御分类器 (XLPID 集成)}$ 标记为恶意? $\xrightarrow{是}$ 添加安全通知 $\xrightarrow{Stage 1: 受害者 LLM}$ 响应 $r_i$ $\xrightarrow{Stage 2: 裁判集成}$ 多数投票 $\xrightarrow{Stage 3}$ ASR, BU, UA, CLP
>
> **图 3：BIPIA 端到端评估管道。** 防御分类器（第 0 阶段）在受害者 LLM（第 1 阶段）之前可选地保护提示。多个裁判 LLM 独立评分响应（第 2 阶段）；其判决由多数投票结合。第 3 阶段聚合最终指标。

#### 提示构建。

每个样本 $(c, \ell, \tau)$ —— 上下文 $c$，语言 $\ell \in \{EN, BN\}$，任务 $\tau$ —— 包裹在一个特定任务的系统提示中，$c$ 作为外部内容注入：

$p_i = \texttt{sys}_\tau(c_i, \ell) \| \texttt{usr}_\tau(\ell)$

其中 $\|$ 表示连接。当第 0 阶段将 $c_i$ 标记为恶意时，双语安全通知附加到 $\texttt{sys}_\tau$ 之前。

#### ASR 评判。

每个裁判 $J_k$ 接收特定类别的提示和受害者响应 $r_i$，返回三元判决：

$v_k^{(i)} = \texttt{parse}(J_k(\texttt{judge\_asr}(r_i, \text{cat}_i, \ell))) \in \{1, 0, -1\}$

其中 $1=\text{YES}$, $0=\text{NO}$, $-1=\text{UNKNOWN}$。对于效用，裁判 $J_k$ 将 $r_i$ 与参考答案比较（基于参考）或直接评估帮助性（无参考），产生 $u_k^{(i)} \in \{1, 0, -1\}$。

#### 多数投票。

令 $V^{(i)} = \{v_k^{(i)} : v_k^{(i)} \neq -1\}$ 为样本 $i$ 的有效判决：

$\hat{v}^{(i)} = \begin{cases} 1 & \text{if } \sum V^{(i)} > \frac{1}{2} \|V^{(i)}\| \\ 0 & \text{if } V^{(i)} \neq \emptyset \text{ and } \sum V^{(i)} \leq \frac{1}{2} \|V^{(i)}\| \\ -1 & \text{if } V^{(i)} = \emptyset \end{cases}$

平局和少数 YES 结果都解析为 0，有利于精确率而非召回率。

#### 受害者指标。

令 $\mathcal{A}$ 为攻击样本集，$\mathcal{B}$ 为良性集；令 $\bar{\cdot}$ 表示有效（$\neq -1$）分数的均值。

$\text{ASR} = \bar{v}^{(\mathcal{A})}$
$\text{BU} = \bar{u}^{(\mathcal{B})}$
$\text{UA} = \bar{w}^{(\mathcal{A})}$

其中 $w^{(i)} = 1$ 当且仅当受害者既抵抗攻击 ($\hat{v}^{(i)}=0$) 又完成任务 ($\hat{u}^{(i)}=1$)；否则 $w^{(i)}=0$；如果效用判决无法解决，则 $w^{(i)}=-1$（从均值中排除）。例如，如果受害者忽略了注入的“回复给 [email protected]”命令并正确总结了邮件，则 $\hat{v}^{(i)}=0$ 且 $\hat{u}^{(i)}=1$，产生 $w^{(i)}=1$。

#### 跨语言对等。

对于每个指标 $m \in \{\text{ASR}, \text{BU}, \text{UA}\}$ 和任务 $\tau$，我们定义跨语言对等 (CLP) 分数：

$\text{CLP}_{m,\tau} = 1 - \| m_\tau^{\text{EN}} - m_\tau^{\text{BN}} \|$

值 1 表示完美的语言间对等；较低的值表示语言不对称行为。*解释注意*：CLP 衡量对等，而非绝对性能。如果在两种语言中同等失败（例如，$m_\tau^{\text{EN}} = m_\tau^{\text{BN}} = 0$）的模型得分为 CLP=1.0。因此，CLP 应与绝对每语言分数一起阅读，而不是孤立阅读。

基准通过检测任务上的准确率、F1、AUROC 和 AUPRC 来衡量防御保真度；下游鲁棒性由 ASR、BU、UA 和 CLP（跨语言对等）捕捉。

## 5 实验和结果

### 5.1 实现细节

XLPID 使用 AdamW ($lr=2 \times 10^{-5}$, batch size 8, weight decay 0.01)，序列长度 256，dropout 0.3，带有早停（耐心 10）。TF-IDF 向量化器使用 10,000 个字符 n-grams（大小 1-3），不对孟加拉语进行特定语言的标记化。

初步实验显示，标准模型利用了 225:1 的攻击-良性类别不平衡（总共 143 万个样本）。

#### 数据处理。

我们将攻击下采样到 2:1（良性:攻击）进行训练，并保留 10% 的验证集；w

MIPIAD：基于 Qwen 与 TF-IDF 混合模型及元集成学习的多语言间接提示注入攻击防御

相似文章

LinguIUTics 在 PsyDefDetect 中的方法：面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调

间接提示注入的见解（12分钟阅读）

理解提示词注入：AI安全的前沿挑战

使用 ml-intern 和 DeepSeek v4 Flash 训练了一个提示注入检测器，运行在浏览器中

我构建了一个针对多轮提示注入攻击的基准测试。大多数防御措施从未预料到它们的出现。

提交意见反馈