安全是情境性的,LLM评判者则不然:驾驭评估者的刚性先验
摘要
本文研究了用于安全评估的LLM-as-judge适应情境信息及不同安全定义的能力,发现它们基本是刚性的,当情境与其内部先验相矛盾时无法调整。
arXiv:2606.07874v1 公告类型:新
摘要:LLM作为评判者是大规模评估安全的唯一途径。尽管它们很重要,但LLM评判者本身很少在简单、静态基准上得到超越人类一致性的评估。因此,我们研究了LLM作为评判者的两个未被充分探索但至关重要的特性:它们依赖情境信息的倾向,以及对不同安全定义的可引导性——这些定义可能与其内部安全先验不一致。我们评估了多个通用LLM和特定安全评判者的安全评判能力,并研究了任务示范、新颖的情境信息以及变化的安全定义的影响。我们发现,虽然LLM评判者可以从新信息中学习,但如果情境或安全定义与其先验相矛盾,它们通常不会调整其评估。
查看缓存全文
缓存时间: 2026/06/09 08:53
# 安全具有情境性,而LLM评判者并非如此:应对评估者的刚性先验
来源: https://arxiv.org/html/2606.07874
Anissa Alloula
牛津大学
anissa\.alloula@dtc\.ox\.ac\.uk
&Federico Licini
Cohere
&Ava Batchkala
Cohere
ava@cohere\.com
&Seraphina Goldfarb\-Tarrant²²footnotemark:2
Cohere
seraphina@cohere\.com
###### 摘要
LLM作为评判者是在大规模上评估安全性的唯一途径。尽管它们非常重要,但在简单的静态基准测试中,对LLM评判者本身的评估很少超越与人类的一致程度。因此,我们研究了LLM作为评判者的两个未被充分探索但至关重要的特性:它们对依赖上下文信息的**敏感性**,以及它们对不同安全定义的**可引导性**——这些定义可能与它们内部的安全先验不一致。我们评估了许多通用LLM和专用安全评判者的安全判断能力,并研究了任务示例、新型上下文信息以及变化的安全定义的影响。我们发现,虽然LLM评判者能够从新信息中学习,但如果上下文或安全定义与其先验相矛盾,它们总体上不太可能调整自己的评估结果。
安全具有情境性,LLM评判者并非如此:应对评估者的刚性先验
Anissa Alloula††thanks:本文工作完成于Cohere实习期间
牛津大学
anissa\.alloula@dtc\.ox\.ac\.uk
Federico Licini
Cohere
Ava Batchkala††thanks:共同末位作者
Cohere
ava@cohere\.com
Seraphina Goldfarb\-Tarrant²²footnotemark:2
Cohere
seraphina@cohere\.com
## 1 引言
大规模安全评估依赖于使用LLM作为评判者 (Liu et al., 2025 (https://arxiv.org/html/2606.07874#bib.bib3))。在评估用户请求和LLM响应的安全性时,不存在单一的“地面真相”答案,因此也没有易于验证的奖励信号,所以这类领域几乎完全依赖LLM评判者。然而,尽管它们无处不在,其可靠性仍不明确。越来越多的失败案例已被记录,例如对风格化提示变化的鲁棒性不足,或容易受到对抗性攻击的影响 (Gu et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib32)); Chen and Goldfarb\-Tarrant (2025 (https://arxiv.org/html/2606.07874#bib.bib46)); Wei et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib81)); Weng et al. (2026 (https://arxiv.org/html/2606.07874#bib.bib25)))。但尚未有全面的分析来研究评判者对其当前所广泛使用的各种场景的适应性。
图1:我们测试用于安全评估的LLM评判者是否**可引导**至特定的安全策略,以及它们是否**敏感**于使用上下文信息(关于用户请求的示例和额外信息)。
LLM评判者被广泛应用于安全领域的各种实际场景——它们被用于不同的语言和文化中 (Ning et al., 2025 (https://arxiv.org/html/2606.07874#bib.bib61)),从教育到金融等不同的部署领域 (Gu et al., 2025 (https://arxiv.org/html/2606.07874#bib.bib32)),以及随着世界变化而跨时间使用 (Wang et al., 2026 (https://arxiv.org/html/2606.07874#bib.bib20))。每个新场景都带来许多关于LLM评判者适用性的未解问题。在不同语言和文化中,不存在普遍的安全定义 (Townsend (2025 (https://arxiv.org/html/2606.07874#bib.bib26)))。关于酒精的请求在许多阿拉伯语国家是不安全的 (Noufaily et al., 2025 (https://arxiv.org/html/2606.07874#bib.bib4)),但在其他地方没问题;传教或布道在中国是不允许的 (Delun, 2025 (https://arxiv.org/html/2606.07874#bib.bib5))——区域安全差异的列表如此之长,以至于特定安全策略的相似性比差异性更少见。因此,一个全球通用的安全评判者需要能够根据一系列安全策略来评估提示和补全内容。类似地,安全策略因领域和用例而异。暴力和药物使用在创意写作中通常是可以接受的,并且在准确的新闻报道中是必需的,但在通用聊天机器人中往往受到限制。现有工作倾向于通过评判者提示中定义安全策略来处理这些可变的安全策略 (Jindal et al., 2025 (https://arxiv.org/html/2606.07874#bib.bib84); Weng et al., 2026 (https://arxiv.org/html/2606.07874#bib.bib25))。但仍然不清楚评判者是会遵循新的安全策略,还是仅仅应用其经过广泛后训练形成的潜在安全边界。由于这一点没有被明确测试,我们不知道与人类标签的某个一致性差距是多种可能的错误来源之一,还是源于所应用的安全边界的差异。因此,我们引入**可引导性**作为评判者的一个理想属性,用来量化和考察评判者对不同策略的适应程度。跨时间来看,语言在变化,世界在变化,而LLM不会。这种时间漂移是LLM已知的弱点 (Zhu et al., 2025 (https://arxiv.org/html/2606.07874#bib.bib19)),而与安全相关的语言比其他语言变化更快,加剧了这一脆弱性。许多驱动力导致了这种快速变化:社交媒体和互联网亚文化的广泛使用、规避内容审核的军备竞赛,以及通常与时事相关的错误信息和阴谋论的快速兴起与衰落 (Mehta and Giunchiglia, 2025 (https://arxiv.org/html/2606.07874#bib.bib22); Mei et al., 2024 (https://arxiv.org/html/2606.07874#bib.bib23))。随着时间推移,俚语、时事、政治和威胁态势都在演变,LLM评判者能否被适应和增强以保持准确的判断?我们引入**敏感性**作为第二个理想属性,用来量化评判者对注入信息以提高性能或应对时间漂移的敏感程度。
在这项工作中,我们试图澄清这些问题,以更好地理解如何在多样、复杂、真实世界的设置中使用LLM评判者来评估安全性。我们将研究归纳为两个主要问题:评判者是否利用上下文信息(**敏感性**)?评判者是否可以被引导至自定义安全策略(**可引导性**)?为了回答这些问题,我们评估了一套全面的13个模型,涵盖了不同的模型系列和规模,包括开源和闭源模型,以及通用目的和专门的安全评判者。由于我们对LLM评判者用例的广度感兴趣,我们在五种语言的人工标注安全数据上进行评估,这些语言代表四种文字和非常不同的文化:英语、法语、日语、阿拉伯语和韩语。我们做出以下关键贡献:
1. 我们引入了LLM作为安全评判者的两个重要且被忽视的特性:它们从上下文信息中学习的**敏感性**以及它们对不同安全定义的**可引导性**。
2. 我们展示了敏感的评判者**能够**从新的上下文信息中学习,前提是它们原先的先验较弱。相反,与常见实践 (Gu et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib32))) 相反,评判者很少对示例敏感。
3. 我们展示了安全评判者**不可引导**,而是依赖其内部安全边界来判断,尽管有系统指令。
4. 最后,我们发布了我们的NovelPrompts数据集和评估框架,以便社区能够全面评估任何评判者在敏感性、可引导性和准确性方面的综合特性。
## 2 背景与相关工作
### 2.1 LLM评判者与人类的一致性
许多LLM评判者的基准测试已在各个领域建立,主要目标是验证评判者是否可靠地与黄金标准的人工标注者保持一致,通常通过准确率或Cohen's kappa等指标衡量 (Zheng et al. (2023 (https://arxiv.org/html/2606.07874#bib.bib56)); Son et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib60)); Xu et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib55)); Xie et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib52)))。在标准的LLM作为评判者基准测试中,强大的LLM达到了很高的人类一致性,通常匹配或超过标注者间的一致性水平 (Zheng et al. (2023 (https://arxiv.org/html/2606.07874#bib.bib56)); Zeng et al. (2024 (https://arxiv.org/html/2606.07874#bib.bib90)); Tan et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib30)))。
### 2.2 人类一致性未能揭示的问题
尽管如此,在某些基准测试中,LLM作为评判者的表现出奇地差。最近的一些工作引起了人们对评判者脆弱的关注,评估显示LLM的判断可能因提示模板或被评估的响应的微小变化而大相径庭 (Gu et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib32)); Chen and Goldfarb\-Tarrant (2025 (https://arxiv.org/html/2606.07874#bib.bib46)); Wei et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib81)); Weng et al. (2026 (https://arxiv.org/html/2606.07874#bib.bib25)))。尽管在一个基准测试中与人类一致性很高,但评判者可能在分布外表现很差 (Schwinn et al. (2026 (https://arxiv.org/html/2606.07874#bib.bib80)); Eiras et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib82)))。
##### LLM作为评判者在多大程度上使用上下文信息尚不清楚。
鲁棒性并不是准确率未能揭示的评判者的唯一属性。在某些用例中,例如需要整合多条信息的任务或依赖上下文的指令,评判者必须对其提示中语义上有意义的变化做出响应。例如,当被要求**在给定某些上下文**的情况下评估样本时,Xu et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib55)) 发现最佳评判者o1的准确率勉强达到55%。类似地,In et al. (https://arxiv.org/html/2606.07874#bib.bib86) 发现常见的如Llama-guard等安全评判者在给定上下文进行评估时也存在困难,并且在被要求评估为给定用户配置文件(特定用户的安全性)时显示出非常高的假阴性率。关于LLM与上下文在标准任务(即非评判任务)中交互的研究也显示出混合的结果:LLM在多大程度上能够且愿意使用上下文。例如,一系列工作表明LLM**能够**从上下文示例中学习,将它们作为关于标签空间和期望输出格式的线索,包括如何正确格式化响应 (Min et al. (2022 (https://arxiv.org/html/2606.07874#bib.bib75)); Kossen et al. (2024 (https://arxiv.org/html/2606.07874#bib.bib77)); Long et al. (2024 (https://arxiv.org/html/2606.07874#bib.bib76)))。其他工作表明,当LLM的上下文与其参数化知识(训练中学到的内容)相矛盾时,模型很可能会忽略上下文,尤其是在其自信的主题上 (Du et al. (2024 (https://arxiv.org/html/2606.07874#bib.bib66)); Kossen et al. (2024 (https://arxiv.org/html/2606.07874#bib.bib77)); Ming et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib94)))。尽管存在这些不一致的结果,常见的评估实践假设评判者确实从上下文中学习,因此常常在提示中包括任务示例或其他与评判相关的信息 (Kim et al. (2024 (https://arxiv.org/html/2606.07874#bib.bib57)); Xu et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib55)))。
##### LLM评判者能否适应变化的任务指令尚不清楚。
在评判者提示中包含评估标准或任务评分标准也是常见做法,因为一些工作表明这可以提高评判者准确性 (Kim et al. (2024 (https://arxiv.org/html/2606.07874#bib.bib57)); Asai et al. (2026 (https://arxiv.org/html/2606.07874#bib.bib24))),并且可以胜过特定任务的微调 (Souly et al., 2024 (https://arxiv.org/html/2606.07874#bib.bib21))。Weng et al. (2026 (https://arxiv.org/html/2606.07874#bib.bib25)) 甚至发现一些LLM评判者**能够**适应任务定义的简单变化,尽管这项工作仅限于四个评判者和一种从严格到宽松的安全定义转换。另一方面,Murugadoss et al. (2025 (https://arxiv.org/html/2606.07874#bib.bib53)) 发现最佳评判者在没有任何任务指令或评估标准的情况下表现更好。这表明评判者正在利用其先验知识来解决任务,而不是依赖特定任务指令的增强。由于大多数LLM作为评判者的评估任务都具有与LLM在预训练和后训练期间所学内容一致的评估方案(例如,响应更清晰则更好,请求若煽动伤害则不安全等),我们尚不清楚LLM的判断反映的是评估指令还是仅仅是其训练先验。综合来看,这些结果对评判者能否遵循评估指令并整合新的上下文信息提出了质疑。鉴于这些为数不多的评判者评估论文呈现的混杂图景,以及它们无法孤立上下文信息与训练数据的影响,需要进行结构化的研究。这在安全评估领域尤为重要,因为几乎所有评估都依赖评判者,但任务并不总是与评判者的先验一致。
## 3 实验设置
我们的目标是对LLM评判者评估安全性的能力进行元评估。在标准设置中,给定用户请求和安全策略,评判模型被要求预测提示是安全还是不安全的。¹¹¹一些安全评估设置评判用户提示,一些也包括模型补全内容。这里我们专注于仅评判用户提示,但结果揭示的模式在两者中是一致的,如附录B.2.1 (https://arxiv.org/html/2606.07874#A2.SS2.SSS1)-D (https://arxiv.org/html/2606.07874#A4)所示。令 \(\mathcal{J}\) 表示一组评判模型。每个样本 \(x_i \in \mathcal{X}\) 包含一个用户提示。一个评判者 \(j \in \mathcal{J}\) 接收 \(x_i\) 以及一个安全定义 \(s\) 和一个评估上下文 \(c_i\)(提示的一部分),并输出一个二元安全预测 \(\hat{y}_{i,j}(x_i;s,c_i) = f_j(x_i;s,c_i) \in \{\textsc{Safe},\textsc{Unsafe}\}\)。上下文 \(c\) 可能包含多个组成部分:\(c_i = (\tau, \mathcal{D}, r_i)\),其中 \(\tau\) 表示任务指令,\(\mathcal{D}\) 是示例集,\(r\) 是与提示 \(x_i\) 相关的任何附加信息。在我们的实验中,附加信息包括对提示中可能不为LLM所知的术语或概念进行的几句解释,这些术语要么是特定小众的区域性表达,要么是晚于LLM训练数据截止时间出现的。我们根据地面真相的人工标注安全标签 \(y\) 来评估评判者预测 \(\hat{y}\),并研究上述组件 \(s\) 和 \(c\) 的变化如何在样本层面(\(\hat{y}_j\))和所有 \(\hat{y}\) 的聚合层面影响评判者预测。这使我们能够在静态安全分类之外评估评判者行为,并更好地理解LLM作为安全评判者的关键属性。我们在 此处 (https://github.com/anissa218/judge-susceptibility-steerability) 分享我们的评估框架。
### 3.1 数据
我们在大多数分析中使用三个具有挑战性的评估数据集。前两个是内部策划的,包含人工生成的用户请求、人工标注的粗粒度与细粒度安全标签,以及各种辅助元数据(例如,提到的安全类别、语言等),这些也是人工标注的。两者均由专业安全标注员标注,涵盖五个关键安全类别(详见下文)相似文章
论大语言模型适应性的局限:模型内化先验对标注任务性能的影响
本文研究了LLM的内化先验如何影响零样本标注性能,发现近三分之二的错误抵抗基于提示的修正,并引入了定义特定熟悉度(DSF)作为比记忆化指标更好的预测因子。
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
LLM-as-Judge的几何学:为何LLM间共识并非人类对齐
本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。
长上下文LLM中的位置失败:推理基准测试的盲点
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。
面向上下文LLM级联的在线Pandora's Box
本文介绍了一种面向自适应查询和选择LLM API的在线上下文Pandora's Box模型,提出了一种结合GMM估计与UCB风格置信区间的学习方法,并证明了维度相关的遗憾界。