LLM裁判存在暗电流:用于LLM-as-a-Judge评估的心理测量数据表

arXiv cs.CL 论文

摘要

本文介绍了一种心理测量数据表协议,用于将LLM裁判作为测量工具进行评估,测量暗电流、位置虚假偏好、稳定交叉敏感性和目标敏感性。基于三个开放权重模型的案例研究揭示了裁判质量和行为的显著差异。

arXiv:2606.15610v1 公告类型:新 摘要:LLM-as-a-judge系统现已常规用于开放式模型评估,其中人类偏好标注成本高、速度慢且难以复现。然而,这些裁判通常被报告为标量准确率、胜率或一致性设备。我们认为裁判应被视为测量仪器。我们引入了一种裁判数据表协议,用于测量在真空输入下的暗电流、对同等质量表面变化的稳定交叉敏感性、位置虚假偏好、在受控质量阶梯上的目标敏感性,以及由平局指令引发的准则或工作点。方向-稳定性分解揭示,明显的Delta0偏好可能是稳定的表面响应或伪装的立场偏差。在三个开放权重模型的案例研究中,Llama-3.1-8B显示出高暗电流和呈现冲突的Delta0行为,Qwen2.5-14B是真空洁净且目标敏感的,但混合了稳定和位置上的过度区分,而Qwen2.5-32B是真空洁净的,具有低稳定交叉敏感性和低位置虚假偏好。严格的平局准则消除了Qwen32B的Delta0虚假偏好,但将边缘的Delta1目标信号吸收到平局中,同时保留了Delta5敏感性。结果表明,提示移动的是准则而不是分辨率。我们不声称激发这项工作的下游机制假设已得到确认;贡献在于提出了一种计量学协议,用于在下游声明提出之前测量测量设备本身。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:49

# LLM 评测器存在暗电流:面向 LLM-as-a-Judge 评估的心理测量学数据表
来源:https://arxiv.org/html/2606.15610
宇佐美 博康 (Hiroyasu Usami)https://orcid.org/0000-0003-4161-42391,原 圭介 (Keisuke Hara)1,坪井 文人 (Ayato Tsuboi)1,松田 直彦 (Naohiko Matsuda)2
1 中部大学 工学研究科 信息工学专攻,邮编 487-8501,日本爱知县春日井市
2 三菱重工业株式会社 研究创新中心 传热研究部,邮编 676-8686,日本兵库县高砂市
[email protected] https://usamilab.org/

(2026 年 6 月 12 日)

###### 摘要

LLM-as-a-judge 系统现已成为开放式模型评估的常规工具,因为人工偏好标注成本高昂、速度缓慢且难以复现。然而,这些评测器常常仅以标量准确率、胜率或一致性指标的形式被报告。我们主张,评测器应被视为一种测量仪器来报告。我们引入了一种“评测器数据表 (Judge Datasheet)”协议,该协议可测量:在真真空输入下的暗电流、对同质量表面变化的稳定交叉敏感性、位置性虚假偏好、在受控质量阶梯上的目标敏感性,以及由平局指令诱导出的判断标准或操作点。方向-稳定性分解揭示了,表面上的 Δ0 偏好可能是稳定的表面响应,也可能是伪装的位置偏差。在一个包含三款开放权重模型的案例研究中,Llama-3.1-8B 表现出高暗电流和呈现方式冲突的 Δ0 行为;Qwen2.5-14B 是真空清洁且对目标敏感的,但混合了稳定性和位置性的过度判别;Qwen2.5-32B 是真空清洁的,具有低稳定交叉敏感性和低位置性虚假偏好。严格的平局标准消除了 Qwen32B 的 Δ0 虚假偏好,但将边际的 Δ1 目标信号吸收进平局,同时保留了 Δ5 的敏感性。结果表明,提示语移动的是判断标准,而非分辨率。我们不主张作为本工作动机的下游机制假设得到证实;我们的贡献在于,在下游声明提出之前,为测量测量仪器本身提供了一套计量学协议。

## 1 引言

在当前的 LLM 开发实践中,开放式模型比较通常依赖自动评测器,因为人工评估在基准测试规模下成本高昂、速度缓慢且难以复现。这使得评测器成为评估基础设施的一部分,而不仅仅是一个方便的评分工具。其吸引力显而易见:评测器能阅读自然语言、应用任务特定标准并产生偏好,而无需事先将答案简化为狭窄的自动指标。但是,一旦评测器被用于验证另一个系统,评测器本身就成为了一种测量仪器。它可能在没有信号时产生背景响应、对目标构念的敏感性、对干扰变量的交叉敏感性、位置偏差,以及一个决定弱信号被报告为偏好还是无偏好的操作标准。

本工作源于对 LLM 评估中方向性的下游研究。此处不检验该下游机制;本文仅测量评测器是否经过足够校准以支持此类声明。我们使用 ChiralityEval 作为该下游研究线的项目名称,但本文的贡献在于评测器计量学,而非机制验证。

我们将以下概念定义为:**暗电流**:在真真空输入(包括空答案、空白答案和相同的非空答案)下产生的虚假偏好。**位置性虚假偏好**:由呈现槽位而非候选内容驱动的表面偏好。**稳定交叉敏感性**:在呈现顺序经规范化处理后,对同质量(Δ0)比较中非目标但真实的表面形式变化的稳定响应。**目标敏感性**:在构造性控制的 ΔQ 阶梯上检测预期质量差异的能力。**标准**:由指令和提示语诱导出的平局/偏好操作点。

我们的贡献有五点:

- **评测器数据表协议**。我们为 LLM-as-a-judge 系统引入了一种“评测器数据表”协议,结合了 A0 真真空测试、A1 受控质量阶梯和标准偏移探测。
- **方向-稳定性分解**。我们将 Δ0 方向-稳定性分解作为第一类测量:在规范对级别上,将原始的等质量虚假偏好分离为稳定交叉敏感性、位置性虚假偏好、单边承诺、其他冲突和无偏好。
- **受控刺激阶梯**。我们构建了一个具有帕累托优势的“前缀链清单”刺激阶梯,包括 Δ0 同子集和不同子集控制、填充物控制和有效性门控。
- **三款模型案例研究**。我们提出了一个关于 Llama-3.1-8B、Qwen2.5-14B 和 Qwen2.5-32B 的案例研究,表明它们具有不同的计量学特征。
- **标准偏移探测**。我们表明,严格的平局提示语会移动判断标准:它消除了 Qwen32B 的 Δ0 虚假偏好,但将边际的 Δ1 目标信号吸收进平局,同时保留了 Δ5 的敏感性。

中心主张是刻意的狭窄的。我们不声称下游机制假说或方向性机制得到证实。我们不声称存在广泛的规模族趋势、通用评测器或人类真实结果。我们主张,LLM 评测器在作为具有证据价值的仪器使用之前,需要多维度测量。

## 2 相关工作

#### LLM-as-a-judge 可靠性与 IRT

先前的工作通过观察性潜在特质建模和基准级别可靠性来诊断 LLM 评测器。Choi 等人使用项目反应理论 (IRT) 从观察性反应模式诊断 LLM-as-a-judge 的可靠性[1 (https://arxiv.org/html/2606.15610#bib.bib1)]。我们通过一套实验性心理物理学协议来补充这一研究方向:构造性控制的刺激强度、真真空输入、方向-稳定性测试和直接的操作标准操纵。

#### 评估基础设施与自动评测器

大规模评估框架(如 HELM 和 BIG-Bench)将评估视为衡量语言模型跨任务和风险能力的框架基础设施[2 (https://arxiv.org/html/2606.15610#bib.bib2),3 (https://arxiv.org/html/2606.15610#bib.bib3)]。与此同时,基于 LLM 的自动评估器(如 MT-Bench/Chatbot Arena 和长度控制 AlpacaEval)使开放式评估变得更便宜、更快,同时也暴露了特定评测器的偏差,如位置、冗长性和长度敏感性[4 (https://arxiv.org/html/2606.15610#bib.bib4),5 (https://arxiv.org/html/2606.15610#bib.bib5)]。诸如 OpenAI Evals 之类的实用评估框架进一步将评估循环规范化,作为模型开发的一部分[6 (https://arxiv.org/html/2606.15610#bib.bib6)]。我们的工作侧重于此评估基础设施的测量端:在评测器分数被用作证据之前,评测器本身应有一份数据表。

#### 信号检测与判断标准

信号检测理论区分了敏感性和判断标准。Cacioli 用 SDT 术语框架化了 LLM 决策,并提出了温度-标准类比[7 (https://arxiv.org/html/2606.15610#bib.bib7)]。我们对成对评测器决策和提示语诱导的标准偏移的操作化使用了 SDT 框架:提示语可以移动平局/偏好的操作点,而无需增加基础测量的分辨率。

#### 评测器偏好中的偏差

已知 LLM 评测器存在位置、冗长性、自我偏好和顺序效应。MT-Bench 和 Chatbot Arena 推广了 LLM-as-a-judge 评估,同时记录了位置、冗长性和自我增强偏差[4 (https://arxiv.org/html/2606.15610#bib.bib4)]。Shi 等人系统性地研究了位置偏差及其对比较条件的依赖性[8 (https://arxiv.org/html/2606.15610#bib.bib8)]。Yang 等人通过等质量比较和缓解策略研究了自我偏好偏差[9 (https://arxiv.org/html/2606.15610#bib.bib9)]。先前的位置偏差工作通常测量聚合顺序效应或边际槽位偏好。我们通过一个操作化的 Δ0 方向-稳定性测试来补充它,该测试在规范对级别上将内容稳定偏好与槽位稳定偏好分开。

#### 文档与数据表

数据集数据表和模型卡确立了数据集和模型的结构化披露实践[10 (https://arxiv.org/html/2606.15610#bib.bib10),11 (https://arxiv.org/html/2606.15610#bib.bib11)]。我们的文档单元是评测器本身。评测器数据表将暗电流、位置驱动的虚假偏好、稳定交叉敏感性、目标敏感性和判断标准分开,使得下游声明不会静默地继承未测量的评测器行为。

## 3 评测器数据表协议

表 1:评测器数据表协议组件。### 3.1 符号表示

令 z = {u, v} 为一个规范化的无序内容对。呈现顺序为 o ∈ {(u, v), (v, u)},其中两个内容被分配到槽位 1 和 2。评测器返回一个槽位级输出 J(o) ∈ {1, 2, tie}。我们将槽位级输出映射回规范化的内容标识符,记为 W_J(o) ∈ {u, v, tie}。顺序反转算子为 π(u, v) = (v, u)。槽位标识与内容标识不同:方向-稳定性度量仅在将槽位输出映射回规范化的候选标识符后计算。所有方向-稳定性度量均在将槽位胜者映射回规范化内容标识符后计算;在顺序反转下,槽位级别相等和内容级别相等意味着相反的事情。

### 3.2 度量概览

表 2:度量概览。此紧凑的正文视图给出了度量的级别和关注方向;协议和分母细节见附录表 LABEL:tab:metrics_glance_full。“坏方向”是相对于受控的清单构念而言的,而非道德判断。某些轴是构念相关的:如果风格或表面形式是目标构念的一部分,那么稳定交叉敏感性可能是有用的。如何解读度量。原始的 Δ0 虚假偏好 (RFP0) 不是交叉敏感性。稳定交叉敏感性需要在顺序反转下具有内容稳定的方向。位置性虚假偏好需要在顺序反转下具有槽位稳定的选择。RFP0 平均每个规范对的两个呈现顺序调用;SCS、PFP、OSC 和其他是规范对分解项,由公式 (7) 组合。高平局率不总是不好的;在真真空下它是理想的。Δ⋆75 ≤ 1 并不精确为 1;它受阶梯粒度影响而左删失。严格标准分支不是一个新评测器,并且除非在该提示语下重新运行 A0,否则不具有暗电流测量。参考/API 评测器是外部比较器,而非真实结果。

### 3.3 度量定义

令 V 为真真空集合,令 J_tie 表示允许平局的评测器协议。真真空输入包括空、空白和相同的非空对。暗电流是在允许平局的协议下,非弃权的虚假偏好率:

DC(J) = E_{(u,v)∈V} [ 1{ W_J(u,v) ≠ tie ∧ W_J(u,v) ≠ abstain } ] .      (1)

在本文中,有效的弃权被视为此轴上的无偏好。

令 D_0 为 Δ0 同子集规范对集合。原始的 Δ0 虚假偏好是调用级别的非平局率,写为每个规范对的两个呈现顺序调用的平均值:

RFP0(J) = E_{(u,v)∈D_0} [ 1/2 ( 1{ W_J(u,v) ≠ tie } + 1{ W_J(v,u) ≠ tie } ) ] .      (2)

该量包括稳定、位置、单边和冲突组件。因此我们不将原始的 Δ0 虚假偏好称为交叉敏感性。尽管公式 (2) 在规范对上取平均,但内部平均值使其成为双调用率。

稳定交叉敏感性是在顺序反转下,内容稳定非平局选择的规范对率:

SCS(J) = E_{(u,v)∈D_0} [ 1{ W_J(u,v) = W_J(v,u) ∈ {u,v} } ] .      (3)

位置翻转发生在评测器在两个呈现顺序中选择相同槽位时,这会反转规范化的内容标识符。位置性虚假偏好为:

PFP(J) = E_{(u,v)∈D_0} [ 1{ J(u,v) = J(v,u) ∈ {1,2} } ] .      (4)

这不是内容稳定的选择;它表示呈现槽位驱动的偏好。

剩余命名的组件是单边承诺,其中两个呈现顺序中恰好有一个产生非平局:

OSC(J) = E_{(u,v)∈D_0} [ 1{ 1{W_J(u,v) ≠ tie} + 1{W_J(v,u) ≠ tie} = 1 } ] .      (5)

我们通过从对级别非平局贡献中减去命名的组件来定义残差其他冲突贡献:

Other(J) = RFP0(J) - SCS(J) - PFP(J) - OSC(J)/2 .      (6)

因此,在图 3 中使用的互斥规范对分类下,

RFP0(J) = SCS(J) + PFP(J) + OSC(J)/2 + Other(J) .      (7)

系数 1/2 由以下事实决定:单边承诺在两个呈现顺序调用中贡献一个非平局决策。无偏好对公式 (7) 贡献为零。对于限制在 {u, v, tie} 的输出,稳定、位置、单边承诺和无偏好涵盖了两种顺序的情况,因此 Other 构造性地为零。我们保留 Other 作为保护类别,用于模式无效调用、未映射到平局的有效弃权,或未来协议中具有额外非平局状态的情况。在当前干净运行中,Other 构造性地为零。

对于非零阶梯对 D_δ,令 y⋆(u,v) 为在前缀链构念下较高质量的内容。主表报告全调用目标敏感性,其中平局计为不正确:

P_correct^all(δ; J) = E_{(u,v,o)∈D_δ} [ 1{ W_J(o) = y⋆(u,v) } ] .      (8)

必要时,条件非平局准确率单独报告为

P_correct^{non-tie}(δ; J) = Pr[ W_J(o) = y⋆(u,v) | W_J(o) ≠ tie ] .

相似文章

评判电路

arXiv cs.CL

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。

审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。