Gate AI：LLM安全基准评估方法与结果

arXiv cs.LG 2026/06/03 04:00 论文

llm-security benchmark evaluation prompt-injection jailbreak-detection cross-validation methodology

摘要

本文提出了一种针对LLM安全检测器的评估方法，旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证，选取单一全局操作点，并包含多项泛化能力诊断指标。

arXiv:2606.02959v1 公告类型：新摘要：已发表的大语言模型提示注入与越狱检测器评估方法普遍存在两个系统性缺陷：按数据集独立调整阈值以及未公开的工作点。我们设计了一种解决这两类问题的评估框架。该检测器通过16个公开基准（共12,111个样本）进行5折交叉验证评分。主流程采用按行分层的StratifiedKFold；并行实施基于复合键（父提示ID + MinHash与LSH近重复聚类，Jaccard相似度≥0.8）的StratifiedGroupKFold分层分组折叠，作为泄露预防诊断指标。全局工作点通过保留折优化选取（在假阳性率≤1%条件下最大化F1值），并统一应用于所有数据集，确保各数据集结果基于单一阈值而非按基准独立优化。泛化性能通过一系列诊断测试评估（留一数据集交叉验证、随机标签对照实验、对抗验证、置换特征重要性、长度偏差相关性、分类器头部一致性、跨源近重复检测、阈值迁移性、训练集与保留集一致性、以及释义不变性探测），大部分诊断设置量化通过阈值，其余给出明确失效模式。所有外部对比中，检测器阈值均按竞争对手公布的假阳性率重新调整，确保在匹配的工作点上进行性能比较。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:41

# LLM 安全基准评估方法与结果¹
¹ 工作预印本。后续版本可能更新基准数字、数据集构成或方法；请参考最新版本获取当前数据。
来源：https://arxiv.org/html/2606.02959
\(2026\-05\-27\)

###### 摘要

已发布的针对大型语言模型的提示注入和越狱检测器评估，往往存在两个系统性的弱点：针对数据集的阈值调整和未公开的工作点。我们描述了一个解决这两个问题的评估框架。被评估的检测器在16个公开基准（12,111个样本）上使用5折交叉验证进行评分。主要采用分层K折（按行）；同时并行运行一个基于复合键（父提示ID加上MinHash + LSH近重复聚类，Jaccard≳0.8）的分层分组K折，作为泄漏溢价诊断。在保留折上选择单个全局工作点（在FPR≤1%约束下最大化F1），并统一应用于每个数据集，因此每个数据集的结果反映的是一个阈值，而非针对每个基准的优化。泛化能力通过一系列诊断进行检验（留一数据集交叉验证、随机标签控制、对抗验证、排列特征重要性、长度偏差相关性、分类器头部一致性、跨源近重复检测、阈值可迁移性、训练集与保留折一致性，以及释义不变性探针），其中大部分诊断设有定量通过阈值，其余则说明故障模式。对于每次外部比较，检测器的阈值会根据竞争方公布的假阳性率重新调整，以便在匹配的工作点上评估对比值。

关键词：LLM安全 · 提示注入 · 越狱 · 基准

## 1 引言

本文所考察系统的典型部署场景是一个代理助手，拥有对用户电子邮件收件箱的读取权限和对外发邮件的写入权限。一旦攻击者提供的内容（钓鱼邮件、恶意附件、被投毒的日历邀请）到达助手，该内容中的一行自然语言指令就可能导致模型以攻击者的名义起草并发送邮件、窃取之前线程的内容，或调用助手有权访问的任何其他工具。同样的威胁面也出现在检索增强聊天、浏览器自动化代理以及任何将不可信数据混入LLM提示的应用中。过滤这些攻击的防御系统已经激增，但它们的公开评估参差不齐：临时数据集、未公开的阈值、针对数据集的调整以及对阳性标签定义的不一致，使得跨系统比较变得困难。

本报告描述了用于对受测检测器进行基准测试的评估框架，并与已公布的竞争对手数字进行比较。该工作刻意限定于非专有的测试方法论：如何组装轨迹、交叉验证如何防止兄弟块泄漏、如何选择单个全局工作点并统一应用、如何通过每个数据集匹配FPR的比较重新调整阈值以消除FPR不匹配，以及留一数据集和随机标签诊断如何压力测试泛化能力。检测器本身被视为黑盒。本文剩余部分组织如下：第2节完整描述了测试方法论：轨迹组装、防泄漏交叉验证、内部验证与阈值选择、从每个块到每个提示的聚合、微平均与宏平均的选择、工作点选择、匹配FPR比较协议、自助法置信区间、校准，以及每次发布时与实证结果一同运行的泛化诊断（每折阈值稳定性、留一数据集、随机标签、校准表），加上关于确定性、局限性和预训练污染的说明。第3节描述了数据集语料库及其攻击家族构成。第4节报告了总体结果、每个数据集的比较，以及与最常被引用的商业竞争对手的正面比较。第5节报告了端到端延迟。附录词汇表定义了论文中使用的每个指标和术语。

## 2 方法论

### 2.1 数据集与轨迹组装

评估轨迹结合了16个公开基准，涵盖平衡集、全攻击对抗语料库和全良性过度防御基准。每个上游数据集通过一个带数据源标签的加载器加载，生成的样本合并为一个轨迹。轨迹身份通过加载器文件内容的哈希值以及每个加载器的样本上限进行内容哈希，因此针对相同加载器版本和上限的重复运行会产生比特级一致的轨迹；这使得缓存重用安全且可重复性可验证。每个数据集的描述和引用见第3节。

### 2.2 交叉验证

保留折预测来自K=5折交叉验证。轨迹D=\{ (x_i, y_i) \}_{i=1}^N 被划分为不相交的折 D = ⨆_{k=1}^K D_k。两个分割器并行运行：

- **分层K折**：保持标签边际 P(y|D_k) ≈ P(y|D) 对于每个 k。这是主要的分割；训练后的模型和主要的 F1/FPR 来自此。
- **（诊断）分层分组K折**：使用*复合*分组键 g(⋅)，该键是（通过并查集）两个隶属关系的并集：*主*键：当上游流水线发出分块行时使用父提示索引，否则使用行 ID；以及*近重复*键：基于5字符 shingle 的 MinHash + LSH 聚类，校准使得 Jaccard 相似度≳0.8 的行发生碰撞。共享任一键的行会传递性地坍缩到同一组。分割器将每个组的每个成员放在同一折中（无组内泄漏），同时保持每折的标签边际接近 P(y|D)。

两次分割使用相同的模型、相同的特征、相同的内部验证早停/阈值方法；仅折分配策略不同。差值 ΔF1 = F1^{strat} - F1^{sgk} 估计了精确文本身份折本可捕获但复合分组折拒绝的残余泄漏溢价。早期论文修订版本使用普通 GroupKFold 进行此诊断；这混淆了泄漏与跨折的类别边际不平衡（GroupKFold 不按标签分层），并将 ΔF1 变成了一个松的上界。将诊断切换为 StratifiedGroupKFold 消除了类别边际项，因此在干净轨迹上 ΔF1 仅追踪泄漏。

在无分块行且无近重复聚类的逐提示轨迹上，复合键退化为行身份，诊断分区匹配随机分层K折，ΔF1 在该情况下无信息量；我们明确说明以避免声称该诊断无法提供的保护。

参见标题图1：主要5折交叉验证的每折ROC叠加。每条曲线是一个保留折的分数分布相对于真实标签；围绕共同包络线的紧密聚类是无泄漏信号，表明折与折之间性能稳定。

### 2.3 内部验证、早停与阈值选择

每个外部折的训练集 D_k^{train} = D \setminus D_k 被分为分层的内部训练和内部验证子集，比例为85/15。内部验证切片是早停监视器（最大800次迭代，耐心40次，以内部验证切片上的对数损失作为停止标准）和操作阈值选择器。每折阈值为

θ_k^* = \arg\max_{\theta \in \Theta_k} F_1\left( \hat{y}_\theta, y \middle| D_k^{\text{inner-valid}} \right)，

其中 Θ_k 是所有观察到的内部验证概率与一个回退网格 {0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9} 的并集。选择的 θ_k^* 应用于保留测试折 D_k 以获得硬标签。规范工作点为 θ̃ = \operatorname{median}_k θ_k^*。测试折在训练期间从未被评估。

#### 每折阈值稳定性（实证）。

主要分层K折的5个内部验证选择的阈值：

均值 θ_k^* = 0.460，中位数 θ̃ = 0.500（第2.3节定义的规范工作点），σ = 0.153，范围 [0.200, 0.650]。围绕 θ̃ 的紧密聚类是无泄漏信号：每折独立地从其自身的保留内部验证切片到达相似阈值，从未见过其测试折。

#### 对抗验证。

训练一个辅助分类器 g_φ: x ↦ [0,1] 来预测每行来自训练集还是测试集：φ^* = \arg\min_φ \frac{1}{N} \sum_i \left( g_φ(x_i) - \mathbb{1}[i \in \text{test}] \right)^2。平衡良好的分割产生 AUC(g_{φ^*}) ≈ 0.5。任何显著的提升意味着OOF指标将分布偏移与检测信号混淆了。

参见标题图2：每折对抗验证AUC（目标≈0.5）。

#### 训练集与保留折一致性。

在自身训练行上对每折模型进行评分，并与同一折上的OOF评分比较。定义差值 Δ^{(k)} = F_1^{train,k} - F_1^{OOF,k}。各折的小均值 Δ̄ 确认OOF指标并非由于训练与评分路径之间的流水线状态不匹配而低估；大的 Δ̄ 表示过拟合。

参见标题图3：每折训练集与OOF F1。

### 2.4 从每个块到每个提示的聚合

当流水线对长输入进行分块时，训练在块级别进行，并在指标计算时聚合。令父提示 p 的块由 c ∈ C(p) 索引。连续概率进行最大池化，硬标签是单个全局阈值 θ̃ = \operatorname{median}_k θ_k^*（来自第2.3节）应用于最大池化概率：

\hat{p}_p = \max_{c \in C(p)} \hat{p}_{p,c}, \quad \hat{y}_p = \mathbb{1}\left[\hat{p}_p \geq \thetã\right]。

样本级F1/FPR/精确率/召回率来自此硬标签；AUC来自 \hat{p}_p（无阈值自由）。

#### 每折与总体工作点。

第2.3节的每折阈值表报告了每折内部验证选择的 θ_k^*，而该表中的每折F1是在折k的保留行上以 θ_k^* 评估的（每折工作点）。第3节报告的总体F1/FPR使用应用于每行最大池化概率的单个 θ̃（全局工作点）。因此，在分块轨迹上，当同一父提示的兄弟块可能落在不同折上时，每折F1和总体F1*不直接可比较*；每折表用于稳定性诊断，总体是随一个阈值发布的标题数字。在本文评估的轨迹上，每个提示适合单个块，因此此聚合退化为身份（对所有 p，|C(p)|=1），两个工作点一致；报告这些公式是因为同一流水线对 |C(p)|>1 的分块生产流量进行评分。

参见标题图4：级联F1与FPR扫描，微平均（蓝色）和宏平均（橙色）在同一轴上。每条曲线扫描整个OOF范围内的全局阈值θ。微平均曲线汇集了每个数据源的混淆矩阵，因此受较大数据源支配；宏平均曲线取每个数据源F1的未加权均值，赋予每个数据源相同权重。两条曲线在相同FPR处有意义的差距是每个数据源偏差的视觉特征：当宏平均低于微平均时，模型依赖少数大源而牺牲较小源；当宏平均高于微平均时，较大源拖低了汇集指标。标题工作点（FPR≤1%）和自然阈值在两条曲线上都标出。

### 2.5 聚合：微平均与宏平均

令 S 为源数据集集合。微平均汇集所有行的混淆矩阵，然后推导指标：

F1^{微平均} = \frac{2 \cdot \mathrm{TP}_{池}}{2 \mathrm{TP}_{池} + \mathrm{FP}_{池} + \mathrm{FN}_{池}}。

宏平均取各源的未加权均值，跳过指标未定义的单类切片：

F1^{宏平均} = \frac{1}{|S_{def}|} \sum_{s \in S_{def}} F1^{(s)}。

每个数据源的阳性率差异很大（良性集为0%，全攻击集为100%，混合集为平衡），因此微平均受较大源支配，而宏平均平等加权所有源。两种视图均报告；较大差距表示值得检查的每源偏差。

#### 每个数据源的比例比。

每个数据源在训练混合与评估混合中的阳性率 p_s = E_{x \in s}[y]：ρ_s = p_s^{eval} / p_s^{train}。任何数据源上 ρ_s 远离1表示评估已重新平衡，可能夸大或惩罚宏平均数；我们在每个数据源结果旁边报告 ρ_s。

参见标题图5：每个数据源的训练集与评估集阳性率比率 ρ_s。

### 2.6 工作点选择

单个全局工作点统一应用于每个数据集。没有每个数据集的阈值调整，也没有每个数据集的手动调整决策规则。工作点是解决以下问题的阈值组合：

θ^{op} = \arg\max_θ F_1(\hat{y}_θ, y) \quad \text{subject to} \quad \mathrm{FPR}(\hat{y}_θ, y) \leq τ，

通过在保留折预测上的粗但分布良好的候选网格上进行穷举搜索求解，其中 τ 是目标FPR（本次运行：τ = 1%）。τ 是部署选择，不是理论常数：1% 近似于操作者报告的误报率，超过该率时下游用户报告警报疲劳并开始忽略或绕过检测器。相同的 θ^{op} 然后对每个数据集进行评分；每个数据集的值反映一个全局阈值的结果，而非隔离情况下可达到的最佳值。阈值随文档一起报告，以便工作点可审计。

#### 阈值可迁移性。

对于每个源 s，我们重新选择在仅 s 的行上达到相同目标FPR的阈值 θ_s^*。我们报告离散度 σ_θ = \mathrm{stddev}(\{θ_s^* - θ^{op}\}_{s \in S})。

Gate AI：LLM安全基准评估方法与结果

相似文章

LLM置信度估计的不同方法基准测试

当无基准存在时：验证无真实标签的LLM安全评分比较

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

GAMBIT：用于多智能体 LLM 集体中对抗鲁棒性评估的三模式基准

AI安全排行榜：模型鲁棒性基准测试 [P]

提交意见反馈