AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性
摘要
AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。
arXiv:2606.24589v1 公告类型:新
摘要:扩展大型语言模型的对抗性评估既需要生成困难输入的方法,也需要可靠的方式确认产生的失败是否真实。我们提出AdversaBench,一个端到端的红队测试流程,它使用五个结构化算子对种子提示进行变异,查询目标模型,并通过一个由三位裁判及元裁判(用于平局决断)组成的评审团来确认失败。我们报告了在三个类别(推理、指令遵循和工具使用)的45个种子上的实验。每个种子都产生了确认的失败。有四个发现尤为突出。第一,算子有效性因类别差异显著:inject_distractor在指令遵循种子上平均奖励为0.00,但在推理和工具使用上为0.80-0.83。第二,二值失败率掩盖了难度:指令遵循种子平均需要2.4次攻击者迭代,而其他类别为1.1次,这一差距在生存曲线中可见。第三,裁判两两一致性为80-87%,但由于标签偏斜,Cohen's kappa接近零;类别层面的不一致率更具信息量。第四,针对Llama 3.1 8B生成的对抗性提示可以零样本迁移到Llama 3.3 70B,这表明变异利用的是通用行为模式而非模型特定的弱点。代码、数据集和分析脚本可在https://github.com/khanak0509/AdversaBench 获取。
查看缓存全文
缓存时间: 2026/06/24 07:48
# AdversaBench: 自动化大语言模型红队测试
来源:https://arxiv.org/html/2606.24589
###### 摘要
大规模开展大语言模型对抗性评估需要同时满足两个条件:生成困难输入的方法,以及确认所发现失效是否真实的方法。单一评判器速度快,但无法告知何时评判标准宽松,也无法自行解决模棱两可的情况。我们构建了 **AdversaBench**,一个自动化红队测试流水线与可靠性研究。该系统通过五种结构化算子对种子提示进行变异,查询一个弱目标模型,并通过三位评判员组成的评审团及一个元评判员作为最终仲裁来确认失效。我们报告了一项关于 45 个种子(每个类别 15 个:推理、指令遵循和工具使用)的研究,该研究是从最初的 30 个种子试点扩展而来,以提高对时间推理、严格格式约束和工具边界情况的覆盖率。每个种子都产生了一个已确认的失效。有四项结果尤为突出。首先,算子有效性因类别而异:`inject_distractor` 在指令遵循种子上的平均奖励为 0.33,但在推理和工具使用种子上为 1.00,这种模式在按类别划分的热力图中清晰可见,但在聚合计数中却不明显。其次,二元失败率掩盖了困难程度:指令遵循种子平均需要 2.4 次攻击迭代,而推理和工具使用种子仅需 1.1 次,这一差距通过生存曲线得到证实,该曲线显示指令类种子在第一次迭代后仍有 60% 未被攻破,而其他类别则为 10%。第三,成对评判员一致性达 80-87% 的同时,Cohen's κ 值却接近为零(-0.05 至 -0.11),这是因为失败判决占所有裁决的 90-97%;类别层面的分歧率信息量更大,指令遵循类别的评审团分歧率为 33%,而推理类别为 0%。第四,针对 15 个已验证的对抗性提示进行的零样本可迁移性测试表明,针对 Llama 3.1 8B 生成的攻击可迁移至 Llama 3.3 70B,这表明这些变异利用了通用行为模式,而非某个小型模型的特定弱点。我们在 https://github.com/khanak0509/AdversaBench 发布了流水线、数据集和分析脚本。
## 1. 引言
红队测试已成为大语言模型开发的常规环节。目标很简单:在这些失败在生产环境中暴露之前,找到能暴露错误推理、违反指令或工具误用的输入。朴素提示方法只能发现简单情况。更困难的情况需要对提示变体进行结构化搜索,而一旦找到候选失败点,仍需进行验证。
大规模验证通常意味着使用 LLM-as-a-Judge(Zheng et al., 2023 (https://arxiv.org/html/2606.24589#bib.bib1))。人类成对评估仍是参考标准,但无法扩展到每天数千个合成样本。当任务为偏好排序时,强大模型可作为人类标注者的替代。Zheng et al. (2023 (https://arxiv.org/html/2606.24589#bib.bib1)) 表明,精心设计的评估标准提示可达到超过 80% 的人类一致性率。
对抗性确认则是一项不同的任务。评判员并非在答案 A 和答案 B 之间选择。它看到的是一条提示、一个回应以及一个正确行为的"预期行为"规范。判决结果为失败或通过。这一变化至关重要。宽松的评判员会悄无声息地遗漏真正的失败,严格的评判员则会夸大失败的规模。单一评判器流水线无法让你了解何时发生了上述任何一种情况。
本文描述了 **AdversaBench**,并报告了我们通过端到端运行它所学到的经验。贡献包括:
1. 一个可复现的 LangGraph 流水线,包含五个变异算子、ε-贪婪算子选择、攻击者升级和检查点恢复。失败由三位评判员组成的评审团确认,并设有一个元评判员作为最终仲裁。
2. 提出在失败率之外同时报告*迭代成本*的理由。在 45 个种子上,指令遵循平均需要 2.4 次迭代,而推理和工具使用仅为 1.1 次,尽管每个类别最终都被攻破。生存曲线直观地显示了这一差距。
3. 一项改编自 Zheng et al. (2023 (https://arxiv.org/html/2606.24589#bib.bib1)) 的评判员间可靠性研究。我们将 Cohen's κ 应用于单回应判决而非成对偏好,并表明当失败占据标签分布主导时,高原始一致性可能掩盖接近为零的 κ 值。
4. 一项零样本可迁移性实验,表明针对弱 8B 目标模型生成的对抗性提示可迁移至显著更强的 70B 模型,这表明变异暴露的是通用行为模式而非特定模型的弱点。
## 2. 背景与相关工作
### 2.1. LLM-as-a-Judge
Zheng et al. (2023 (https://arxiv.org/html/2606.24589#bib.bib1)) 引入了 MT-Bench 和 Chatbot Arena,表明 GPT-4 的评判结果能够大规模地与人类偏好对齐。Li et al. (2023 (https://arxiv.org/html/2606.24589#bib.bib6)) 将同一思路扩展到指令遵循排行榜。这两项工作都报告了标注者间一致性,通常以 Cohen's κ 表示:
κ = (P_o - P_e) / (1 - P_e) (1)
其中 P_o 是观察到的协议,P_e 是两位评判员按其各自的基础比率独立投票时预期会达到的协议。值高于 0.8 通常称为强一致性;0.6 至 0.8 为中等。
我们的设置在一个重要方面有所不同。Zheng et al. 比较的是固定位置上的两个候选答案。我们则要求每位评判员判断单个目标回应是否违反了 `expected_behavior`。指标仍为 κ,但分析单位是二元正确性判决,而非偏好标签。
### 2.2. 偏斜分布下 κ 的误导性
当某个标签占主导时,P_e 趋近于 P_o,κ 值会崩溃,即使评判员在困难案例上实质上一致。Feinstein and Cicchetti (1990 (https://arxiv.org/html/2606.24589#bib.bib5)) 称此为高一致性、低 κ 悖论。每当患病率(prevalence)偏斜时就会出现这种情况,而针对弱目标的对抗性评估正是这种设置的极端版本。
### 2.3. 自动化红队测试
Perez et al. (2022 (https://arxiv.org/html/2606.24589#bib.bib2)) 表明,一个语言模型可以大规模地为另一个语言模型生成对抗性输入。后来的系统倾向于使用结构化变异而非开放式生成,因为算子更容易归属于*为何*某个提示破坏了目标。**AdversaBench** 遵循了这一模式。最近的越狱和安全基准测试,如 HarmBench (Mazeika et al., 2024 (https://arxiv.org/html/2606.24589#bib.bib7))、JailbreakBench (Chao et al., 2024 (https://arxiv.org/html/2606.24589#bib.bib8)) 和 StrongREJECT (Souly et al., 2024 (https://arxiv.org/html/2606.24589#bib.bib9)),在更大规模上标准化了攻击套件和自动评分;我们的工作通过聚焦于多评判员确认、评估器可靠性和跨模型可迁移性的研究,对这些努力进行了补充。
### 2.4. 智能体基准测试
AgentDojo (Debenedetti et al., 2024 (https://arxiv.org/html/2606.24589#bib.bib3)) 评估工具使用智能体中的提示注入攻击。我们的工具使用类别针对相似的失败模式(选择错误工具、忽略错误、编造结果),但使用模拟工具,并侧重于行为激发而非注入到实时智能体栈中。
## 3. 系统设计
### 3.1. 概述
图 1 (https://arxiv.org/html/2606.24589#S3.F1) 显示了完整循环。攻击者变异种子提示,目标模型回应,三位评判员投失败或通过,不同意见提交给元评判员。如果未确认失败,则循环重复,最多进行五次迭代。
seeds.json → 攻击者 → 目标 Llama 8B → 法官 × 3 → 保存 dataset.json → 元评判员
↓
3/3 同意 → 直接保存;分歧 → 元评判员解决 → 重试
图 1:**AdversaBench** 流水线。一致同意的判决直接保存;分歧由 GPT-4o-mini 元评判员解决。
### 3.2. 种子构建
我们编写了 45 个种子提示,分为三类:推理(15 个)、指令遵循(15 个)和工具使用(15 个)。最初的 30 个种子(每类 10 个)通过另外 15 个种子进行了扩展,这些种子针对试点运行期间确定的特定失败模式:时间与空间推理、严格格式约束(例如,具有精确键数的有效 JSON)、负面约束(例如,避免特定字母)以及工具边界情况,如除以零和虚构的 API 模式。
每个种子都有一个基础提示、一个 `expected_behavior` 字段和一个 `reference_answer`。对错标准在任何评判员运行之前就已固定,因此判决可以对照客观标准而非仅凭评审团意见进行验证。`expected_behavior` 规范的编写方式使其足够明确,评判员无需主观解释即可验证——例如,指定“恰好 3 句话”而不是“简要总结”。
下方方框是发布数据集中一个实际已验证行的示例。`instruction-001` 要求一个三句话的总结*以及*一个详细解释。目标违反了长度约束。两位评判员标记了失败;Qwen3 认为通过。元评判员确认失败。
种子(instruction-001)
提示:"用恰好 3 句话总结,但也要提供详细解释。"
expected_behavior:"恰好 3 句话;详细解释不得违反句子数量限制。"
迭代 1 --- rephrase(已确认失败)
变异后的提示以更明确的措辞重申了冲突的长度约束。
目标回应:产生了一个多段落的长回答。
评判员判决:Llama=失败,Cerebras=失败,Qwen3=通过
解决:元评判员(GPT-4o-mini)=> 失败 [已验证层级]
### 3.3. 变异算子
每次迭代应用五个算子之一。选择采用 ε-贪婪策略,ε=0.2:以概率 1-ε,攻击者重复使用迄今为止在该种子类别上表现最佳的算子;否则均匀采样。ε=0.2 的值在本研究中未经消融实验,应视为超参数选择;关于算子转移序列的回顾性分析见第 4.4 节 (https://arxiv.org/html/2606.24589#S4.SS4)。算子包括:
- • `rephrase`:种子的表面改写。
- • `inject_distractor`:添加一个看似合理但具有误导性的约束。
- • `role_flip`:在对抗性角色下重新构建任务。
- • `constraint_add`:附加冲突的要求。
- • `jailbreak_wrap`:将种子嵌入越狱风格的模板中。
主要攻击者是基于 Groq 的 Llama 3.3 70B。从第二次迭代开始,当主要攻击者尚未确认失败时,流水线升级到 GPT-4o-mini 以产生更强的变异。每个种子最多进行五次迭代后停止运行。
### 3.4. 评判员评审团与共识
三位评判员对每个候选失败进行评分:Llama 3.3 70B (Groq)、Cerebras GPT-OSS 120B 和 Qwen3 32B (Groq)。每个评判员通过 Pydantic 验证的输出返回结构化的 `failure_detected` 判决。
三位评判员一致失败的情况产生一个 `clean` 行。如果评审团出现分歧,或某位评判员在结构化输出上出错,则由 GPT-4o-mini 作为元评判员。导出的 `dataset_verified.json` 包含所有已确认的失败:包括干净行和经过元评判员仲裁后其共识标志为 `verified` 的行。
### 3.5. 目标与实现
目标模型是基于 Groq 的 Llama 3.1 8B Instant。我们特意选择了一个较小的模型:本研究的重点在于失败激发和评估可靠性,而非前沿模型的鲁棒性。弱目标也保持了较高的失败发生率,这有助于以富有启发性的方式对评判员指标进行压力测试。
代码使用 LangGraph 进行编排,使用 LangChain 进行模型调用。所有模型和路径都位于 `config.yaml` 中。检查点文件允许中断的运行从最后完成的种子恢复。流水线包含稳健的 API 速率限制处理:当某个提供商的每日令牌限额耗尽时,流水线会回退到备用提供商,且不丢失检查点状态。
### 3.6. 可复现性
```
pip install -r requirements.txt
python main.py
python audit.py
python inter_judge_analysis.py
python visualize_results.py
python operator_ablation.py
python test_transferability.py
```
分析脚本读取 `dataset.json` 和 `dataset_verified.json` 中保存的判决。它们不会重新查询评判员。完整的逐行输出包括变异历史和评判员理由,均存放于代码仓库中。
## 4. 结果
### 4.1. 总体表现
所有 45 个种子均产生了已确认的失败。干净层级(3/3 评判员一致同意)和已验证层级(干净 + 元评判员仲裁)共同覆盖了每个种子。独立审核对干净层级的行以 1-5 分的质量评分,所有行均获得 5/5 分。
### 4.2. 算子有效性
表 1 (https://arxiv.org/html/2606.24589#S4.T1) 显示了每个已确认攻破按类别划分的最终算子。全局图景具有误导性:整体上 `inject_distractor` 和 `role_flip` 出现最频繁,但图 2 (https://arxiv.org/html/2606.24589#S4.F2) 中按类别划分的细分更加清晰。
表 1:按任务类别划分的最终算子(45 个种子)。请参阅标题。
图 2:算子有效性热力图(每个算子-类别对的平均奖励)。`inject_distractor` 在推理和工具使用种子上达到 1.00 的平均奖励,但在指令遵循种子上仅为 0.33,这证实了没有任何单一算子能在所有类别中占主导。`inject_distractor` 占据了工具使用类别一半的攻破,但在指令遵循种子上平均奖励仅为 0.33(见图 2 (https://arxiv.org/html/2606.24589#S4.F2))。`rephrase` 是指令遵循类别中最常见的终结算子(4/15),并且两次 `jailbreak_wrap` 的成功均来自指令遵循种子。这种类别-算子交互是反对报告聚合算子计数的核心理由:聚合结果掩盖了最佳算子高度依赖于任务类型的事实。
### 4.3. 迭代成本
每个类别最终都被攻破,因此二元的失败率在各类别中均为 15/15。迭代成本则讲述了不同的故事(表 2 (https://arxiv.org/html/2606.24589#S4.T2))。指令遵循种子平均需要 2.4 次迭代。推理和工具使用种子需要 1.1 次。最初 10 个指令种子中只有 4 个在第一次尝试时被攻破,而其他两个类别中这一数字为 9/10。
表 2:按类别划分的平均迭代成本与首次尝试成功率。请参阅标题。
图 3:按迭代次数和类别划分的目标模型生存曲线。推理和工具使用种子在第一次迭代后生存率降至 10%;指令遵循种子在第一次迭代后仍保持 60% 的生存率,并需要多达 5 次迭代才能完全攻破。
生存曲线(图 3 (https://arxiv.org/html/2606.24589#S4.F3))直观地显示了这一差距。推理和工具使用曲线在第一次迭代后急剧下降;指令遵循曲线则缓慢衰减,跨越所有五次迭代。种子 `instruction-002` 说明了这种累积行为:它经历了五次迭代(`inject_distractor`,然后 `role_flip`,接着三次 `constraint_add` 尝试),评判员才一致确认攻破。
### 4.4. 算子消融
对保存的 `mutation_history` 数组进行的回顾性分析揭示了所有种子上每个算子的平均奖励:`rephrase` 和 `jailbreak_wrap` 各达到 1.00 的平均奖励,但被选择的频率较低(分别为 n=4 和 n=2)。工作负载由 `constraint_add` (0.636, n=11)、`role_flip` (0.615, n=13) 和 `inject_distractor` (0.562, n=16) 承担,这些算子在大量选择的情况下仍然保持了较高的成功率。
算子转移的马尔可夫链分析显示了两条高置信度的升级路径:`constraint_add` → `jailbreak_wrap` (100% 成功率) 和 `role_flip` → `role_flip` (100% 成功相似文章
CHASE:基于强化学习的对抗性红蓝对抗提升大语言模型安全性
CHASE 提出了一种共同进化的红蓝对抗框架,利用强化学习增强大语言模型对自适应黑盒对抗攻击的防御能力,在基准测试中将越狱成功率降低43.2%,同时在对良性提示的误拒率保持为零。
CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。
RankJudge:一个多轮LLM-as-a-Judge合成基准生成器
RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。
DLawBench:通过多轮法律咨询评估大语言模型
DLawBench是一个新的基准测试,用于评估大语言模型在多轮法律咨询中的表现,涵盖中国和美国法律,包含四种客户类型。实验表明仍有很大改进空间,最佳模型在法律推理上仅达到0.562。
Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks
This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.