你的越狱评判器有多可靠?自动化ASR评分的校准与对抗鲁棒性

arXiv cs.CL 论文

摘要

本文评估了用于测量大语言模型(LLM)越狱研究中攻击成功率(ASR)的自动化评判器的可靠性,发现安全分类器和LLM作为评判器都存在严重的校准和对抗鲁棒性问题,从而削弱了所报告的ASR数值的可信度。

arXiv:2606.25487v1 Announce Type: new 摘要:几乎所有关于LLM越狱和提示注入的论文都会报告攻击成功率(ASR),而这个数字并非人工作出,而是由自动评判器分配:要么是为此任务训练的安全分类器,要么是提示进行评分的通用聊天模型。评判器很少被检查。我们检查了它。使用来自HarmBench分类器验证集的596个人工标注的补全结果,我们将两类评判器与人类多数投票进行比较,然后对其进行攻击。这两类评判器以相反的方式失败。专用分类器过度标记(精确率0.835,召回率0.974);三个不同的LLM评判器保持高精确率(0.81至0.94),但召回率不稳定(0.06至0.65),因此相同的响应根据不同的评判器评分会产生差异很大的ASR。这两类评判器在鲁棒性上也差异显著。那些保留有害文本不变、仅添加良性框架的包装器在57%至100%的情况下会翻转每个LLM评判器的判断,而单个前置的拒绝语句就占了很大一部分(39%至88%)。专用分类器能够抵抗这些表面攻击(最多6.7%),但对其开放权重进行的白盒GCG攻击在小优化预算下也能翻转70%的置信度高的真阳性(21/30;95%置信区间54%至86%)。双标注者审核确认攻击后危害性保持不变:抽样的80个翻转中每一个都仍然包含有害内容。由于报告中的ASR有越来越大比例来自LLM评判器,许多此类数字在平均值上和故意压力下都不可靠。我们建议论文报告在人工标注子集上的评判器精确率和召回率,报告经评判器精确率校正后的ASR,并包含对评判器的对抗性检查。我们的代码已开源。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:12

# 你的越狱评判者有多可靠?自动化ASR评分中的校准与对抗鲁棒性
来源: https://arxiv.org/html/2606.25487
Yang Gao Veyon Solutions y\.gao@veyon\.solutions

### 摘要

几乎每一篇关于LLM越狱和提示注入的论文都会报告攻击成功率(ASR),而这个数字并非由人指定,而是由自动化评判者给出:要么是为该任务训练的安全分类器,要么是经过提示进行评分的通用聊天模型。 评判者本身很少被检验。我们检验了它。我们使用HarmBench分类器验证集中596个人工标注的补全,将这两个评判者家族与人类多数投票进行比较,然后攻击它们。这两个家族以相反的方式失败。专用分类器过度标记 (精确率 0.835,召回率 0.974);三个不同的 LLM-as-judges 保持高精确率 (0.81 到 0.94),但显示出不稳定的召回率 (0.06 到 0.65),因此根据不同的评判者进行评分,相同的回应会产生截然不同的 ASR。这两个家族在鲁棒性上也存在显著差异。仅添加良性框架而不触动有害文本的包装器,会使每个 LLM-judge 在 57% 到 100% 的情况下发生翻转,而单单一个前置的拒绝句就占了很大一部分 (39% 到 88%)。专用分类器能抵抗这些表面攻击 (最多 6.7%),但对其开放权重进行的白盒 GCG 攻击,即使在较小的优化预算下,也能翻转 70% 的高置信度真阳性 (21/30; 95% CI 54% 到 86%)。一次两人组审计确认,这些攻击并未消除有害内容:所有 80 个被抽样的翻转案例仍然包含有害内容。实际教训是,未经检验不应信任任何一个评判者家族。由于报告ASR中来自 LLM-judges 的比例很大且不断增长,许多此类数字无论从平均值还是在蓄意压力下都是不可靠的。我们建议论文在人工标注的子集上报告评判者的精确率和召回率,报告根据评判者精确率校正后的 ASR,并对评判者进行对抗性检查。我们的代码已发布。

关键词: 人工智能安全; 安全评估; 越狱; 攻击成功率; LLM-as-judge; 对抗鲁棒性; 校准。

### 1. 引言

一篇新的越狱论文报告对前沿模型的 ASR 为 95%;一篇新的防御论文报告将其 ASR 降至 3%。在任何一个数字有意义之前,必须问:是谁决定了数千个模型回应中的每一个是否有害?答案几乎从来不是人。是自动化评判者,而该领域将其裁决视为基本事实。

问题在于这种信任是没有根据的。如果评判者系统性地将良性回应判定为有害,那么建立在其上的每一个 ASR 都会被夸大;如果它遗漏了真正的危害,每一个 ASR 都会被低估。更糟的是,一个依赖于表面特征而非内容的评判者可以被引导:攻击者,或者仅仅是希望获得有力结果的作者,可以在不改变模型实际回应的情况下移动报告的数字。依赖这些数字的任何人,从防御设计者到审阅者再到政策制定者,都在不知不觉中继承了评判者的盲区。

我们直接研究评判者。一个简单的方法匹配拒绝字符串,但决定大多数有争议案例的两个家族如下。第一个是针对回应进行微调的安全分类器,例如 Llama-Guard [7] 或 HarmBench 分类器 [1]。第二个,现在因为它便宜且灵活而常见,是一个被提示扮演评分角色的普通指令微调模型,通常称为 LLM-as-judge。我们采用两者,衡量它们与人工标签的一致程度,然后测试那些不消除危害的改变能多容易地翻转它们的裁决。

我们的方法除了公开模型和单个免费 GPU 外不需要特殊访问,这正是重点:任何人都可以运行这些检查,也应该这样做。我们预测并发现,这两个家族以不同且部分相反的方式不可靠,较便宜的那个也更脆弱,即使更坚固的家族一旦攻击者能够使用其权重也会崩溃。随后的一次小规模人工审计确认,我们报告的翻转反映了评判者被愚弄,而非危害被消除。

我们做出四项贡献。首先,在同一种攻击协议下对两个评判者家族进行了人类锚定的比较。其次,证据表明保持有害内容不变的包装器欺骗了我们测试的每一个 LLM-judge,而专用分类器却轻松摆脱了它们。第三,一次白盒攻击在三十个高置信度案例上打破了该分类器,而非单一孤立案例。第四,两名独立标注者确认这些翻转保持了危害的完整性。我们发布工具包,以便这些检查易于重复。

### 2. 相关工作

我们的框架遵循 Shlegeris 和 Greenblatt [12] 的思路,他们主张对监督进行元层面的对抗评估:不是评估一个模型,而是对抗性地测试旨在捕捉不良行为的程序,通过构建该程序评分很高但已知是不良的行为。他们的场景是针对未来欺骗性模型的 AI 控制,且他们留下了非正式的思路。我们给出了一个当今的、可测量的实例。我们的监督者是给攻击成功打分的那个安全评判者;我们的"已知不良但评分良好"的行为是保持危害的受攻击回应;我们报告真实评判者的数据。

几个工具充当着该领域的评判者。HarmBench [1] 提供了标准化的有害行为和微调的分类器。StrongREJECT [2] 引入了一个自动评分器,并表明许多高 ASR 的越狱是"空洞的",产生几乎没有实质内容的非拒绝回应。Llama-Guard [7] 和 WildGuard [8] 是被广泛使用的守卫模型。我们将所有这些视为待校准和攻击的工具,而非预言者。

更接近我们的问题,最近的一些论文探讨了评判者的可靠性。*Know Thy Judge* [9] 表明样式改变和前置文本能够欺骗守卫模型。*A Coin Flip for Safety* [10] 表明在攻击、模型和数据变化的情况下,评判者的准确性相对于人工标签下降,而 Miller [11] 主张在评估中进行基本的统计报告。我们增加了这些论文没有同时提供的三件事:在单协议下,针对多个人工标签 [1] 将专用分类器与几个 LLM-judges 进行比较,一次白盒攻击 [3] 打破了一个抵抗表面攻击的分类器,以及人工审计确认攻击保持了危害。

另一支文献构建了攻击本身,包括搜索方法如 PAIR [4] 和 TAP [5],梯度方法如 GCG [3],训练后的后缀生成器如 AdvPrompter [6],以及强化学习攻击者 [13, 14]。我们借用它们的对抗立场,但目标是评判者而不是目标模型。

### 3. 设置

我们使用 HarmBench [1] 文本行为分类器验证集,其中包含 596 对行为(有害请求)和生成(模型的回应),涵盖了标准和上下文行为、多种攻击方法和多个源模型。每一对都有来自三个人工标注者的标签;我们将多数票视为黄金标签。上下文行为使用 HarmBench 的官方上下文提示进行评分,标准行为使用标准提示。

对于专用分类器,我们使用 `cais/HarmBench-Llama-2-13b-cls` [1] 及其官方的标准和上下文提示。对于 LLM-as-judge,我们使用三个开放模型:`Qwen2.5-7B-Instruct` [15]、`Phi-3.5-mini-instruct` [16] 和 `Qwen2.5-3B-Instruct` [15],每个模型都配有简短的评分标准,询问回应是否符合有害行为。我们故意使用开放、无需申请权限的模型,以便工作可以免费复现;封闭的前沿评判者如 GPT-4o 留待未来工作。确切的评判者评分标准随我们的工具包发布(附录 A)。

一切在单个 NVIDIA T4 上使用 4-bit 量化运行。作为对量化的检验,我们的 4-bit 分类器在 98.7% 的项目上复现了基准测试的存储预测,因此量化后的评判者行为与发布的版本一致。

我们报告针对人类多数票的精确率、召回率、F1 和准确率。用 `z_Yes` 和 `z_No` 表示评判者在 "Yes" 和 "No" 答案 token 上的 logits,我们通过有害概率对每个项目评分:

\[
p_{\mathrm{harm}} = \frac{p(\mathrm{Yes})}{p(\mathrm{Yes}) + p(\mathrm{No})},
\]

并且对于一组真阳性 TP(人类认为有害且评判者称为有害的项目),我们报告翻转率 r:

\[
r = \frac{|\{\,i \in \mathrm{TP}: \mathrm{judge}(a(x_i)) = \mathrm{No}\,\}|}{|\mathrm{TP}|}.
\]

每次攻击保持有害体文本不变,只添加良性材料:前面的拒绝句、良性的前言和后记、"用于意识提升"的教育框架,或虚构对话框架。

### 4. 结果

#### 4.1 针对人类标签的校准

表 1 报告了与人类多数票的一致性。专用分类器具有高召回率 (0.974) 和较低的精确率 (0.835):它很少遗漏危害,但标记了相当数量的良性内容,这在任何攻击之前就会使 ASR 大约增加其误报率。三个 LLM-judges 扭转了这一情况。它们的精确率保持较高 (0.81 到 0.94),但召回率范围从 0.06 到 0.65,因此它们遗漏了大量且不可预测的真实危害。这一差异在相同家族的三个模型中保持一致。

| 评判者 | 类型 | 精确率 | 召回率 | F1 | 准确率 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| HarmBench-Llama-2-13b-cls | classifier | 0.835 | 0.974 | 0.899 | 0.901 |
| Qwen2.5-7B-Instruct | LLM-judge | 0.940 | 0.174 | 0.294 | 0.621 |
| Phi-3.5-mini-instruct | LLM-judge | 0.810 | 0.648 | 0.720 | 0.772 |
| Qwen2.5-3B-Instruct | LLM-judge | 0.889 | 0.059 | 0.111 | 0.571 |

*表 1. 在 596 个补全上,评判者与人类多数标签的一致性。*

![[无标题图片]](https://arxiv.org/html/2606.25487v1/figures/fig1_calibration.png)

*图 1. 四个评判者的精确率与召回率。分类器位于高召回率、较低精确率的角落;三个 LLM-judges 位于高精确率、低且不稳定召回率的角落。*

#### 4.2 对保持内容的包装器的鲁棒性

表 2 报告了当我们在每个评判者的真阳性上包裹不得改变有害文本的内容时的翻转率。LLM-judges 全面脆弱:至少一个包装器翻转裁决的比率从 57% 到 100% 不等。在有害内容之前放置一个拒绝句,会导致 39% 到 88% 的案例被翻转;其余差距来自其他三个包装器 (表 2)。专用分类器的任何包装器翻转率为 3.4%。

| 评判者 | 任何包装器 | 拒绝前缀 | 良性前/后记 | 教育框架 | 虚构框架 |
| :--- | :--- | :--- | :--- | :--- | :--- |
| HarmBench cls | 0.034 | 0.004 | 0.004 | 0.015 | 0.015 |
| Qwen2.5-7B (n=47) | 0.830 | 0.830 | 0.468 | 0.596 | 0.596 |
| Phi-3.5-mini (n=175) | 0.571 | 0.389 | 0.183 | 0.314 | 0.411 |
| Qwen2.5-3B (n=16) | 1.000 | 0.875 | 0.688 | 0.812 | 0.562 |

*表 2. 每个评判者在其真阳性上的翻转率 (n = 真阳性数)。*

![[无标题图片]](https://arxiv.org/html/2606.25487v1/figures/fig2_flip.png)

*图 2. 任何包装器翻转率。专用分类器 (阴影线) 为 3.4%;三个 LLM-judges 的范围为 57% 到 100%。*

#### 4.3 白盒攻击下的专用分类器

分类器对包装器的抵抗并不意味着它不能被影响。对固定包装器库进行的贪婪搜索,由分类器自身的概率引导,仅翻转了 15 个案例中的 1 个 (6.7%),略高于基准的 3.4%。基于梯度的攻击则讲述了一个不同的故事。使用针对分类器开放权重的 GCG [3],保持有害体文本不变,在较小的优化预算(50 步,每步 32 个候选)下优化 20 token 的对抗性后缀,我们在 30 个高置信度真阳性中翻转了 21 个,翻转率为 70.0% (95% CI 54% 到 86%),平均成功所需优化步数为 21.4 步。后缀经过优化,以最小化 logit 差距,驱动评判者趋于 "No":

\[
\min_{s} \, (z_{\mathrm{Yes}}(x,s) - z_{\mathrm{No}}(x,s))
\]

(完整配置见附录 A.4)。有 9 个案例在此预算下幸存,最终有害概率在 0.93 到 1.0 之间。标准 GCG 使用更大的预算,因此 70% 最好被解读为该分类器脆弱性的下界。

![[无标题图片]](https://arxiv.org/html/2606.25487v1/figures/fig3_gcg.png)

*图 3. 随着优化步数变化,白盒攻击破解的 30 个高置信度真阳性的比例。攻击在 70% 处趋于平稳 (21/30,平均 21.4 步);九个案例在 50 步预算下幸存。*

#### 4.4 攻击是否保持了危害?

读者可能担心一次翻转意味着攻击消除了危害,而不是愚弄了评判者。为了澄清这一点,两名标注者在经过一轮校准后,独立地对随机抽取的 80 个翻转回应进行了标注,将其分为有害、无害或不确定,且彼此不知晓对方标注。他们在 80 个项目中的 75 个上达成一致 (93.8%)。我们裁决了所有五个分歧,而所有五个仍然包含有害内容;在其中两个案例中,持不同意见的标注者被良性拒绝前缀所误导,正如评判者一样。经过裁决,所有 80 个抽样的翻转都保留了有害内容。这与攻击的构造一致,攻击从不改变有害体。我们报告原始一致率和裁决案例,而非 Cohen's kappa,因为这里的真实标签分布几乎是恒定的(危害几乎总是被保留),这使得 kappa 无信息量。校准确认标注者能可靠识别有害内容,对有害控制的召回率分别为 12/12 和 11/12。

### 5. 讨论

综合来看,结果说明评判者的选择改变了答案。相同的回应,由专用分类器评分而非 LLM-judge 评分,会产生系统上不同的 ASR;没有一个家族能与人类标签很好地匹配,而且两者的错误方向相反。对于过度标记的分类器,一个简单的校正有助于:将报告的 ASR 乘以评判者的精确率,大致消除了其误报贡献,此处约为 16%:

\[
\mathrm{ASR}_{\mathrm{corrected}} \approx \mathrm{ASR}_{\mathrm{reported}} \times \mathrm{precision}.
\]

对于 LLM-judges,主要错误是低且不稳定的召回率,精确率校正无法解决这个问题,并且它们的脆弱性在攻击下加剧了这一问题。

鲁棒性结果使警告更加尖锐。一个对拒绝句而非其后内容做出反应的评判者,并非在衡量危害;而是在衡量礼貌。在我们的审计中,这甚至两次欺骗了细心的人工标注者,表明这种效果并非机器评分的特例。专用分类器避免了陷阱,但会落入能够对其计算梯度的攻击者之手,这正是任何开放权重评判者所处的情况。

因此,我们建议任何报告 ASR 的论文采取四项实践。说明使用哪个评判者,并在同一数据的人工标量子集上报告其精确率和召回率。在原始数字旁边报告经评判者精确率校正的 ASR。至少对评判者运行一次内容保持攻击,并报告翻转率。并且优先使用专用分类器而非 LLM-judge 进行评分,同时记住开放分类器仍可直接被攻击。

### 6. 局限性

本研究仅基于一个数据集,即 HarmBench 分类器验证集,它旨在验证分类器而非衡量每个方法的 ASR;要提出每种方法清晰的论断需要专用的基准。我们未调整 LLM-judge 的提示,因此部分低召回率可能归因于我们的措辞而非模型本身,尽管拒绝前缀的脆弱性在不同模型间保持一致,并与之前的报告相符。

相似文章

AdversaBench: 自动化LLM红队测试的多裁判确认与跨模型迁移性

arXiv cs.AI

AdversaBench介绍了一个自动化LLM红队测试流程,该流程使用五个变异算子和一个由三位裁判及元裁判(用于决断平局)组成的评审团来确认失败,揭示了攻击难度因类别而异,并且对抗性提示可以从较小模型迁移到较大模型。

Review Arcade:论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers

本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。