抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见

arXiv cs.CL 论文

摘要

本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。

arXiv:2606.13685v1 公告类型:新 摘要:LLM-as-a-Judge现已被广泛用于对模型输出进行排名、训练奖励模型以及填充公共排行榜,但其运行间可靠性仍未得到充分表征。我们使用两个OpenAI评估模型(GPT-4o-mini和GPT-4.1-mini)对涵盖10个类别的29个任务进行了重复相同的评估,每个问题进行了50组成对试次和50组逐点评分试次,并辅以温度和提示敏感性消融实验。跨评估者来看,成对偏好平均有13.6%的时间发生翻转,其中28%的问题翻转率超过20%,一个问题甚至达到56%。GPT-4o-mini还表现出显著的首位偏见(72%的A占多数,p=0.024)。同时,逐点评分的平均分数差异很小(10分制下为0.19–0.36),且总体上不具有统计显著性,从而产生了成对-逐点差异:评估者经常选出一个赢家,即便它们自己的标量分数几乎无法证明存在有意义的质量差异。除了评估者内部的不稳定性,跨评估者的一致性仅为76%($\kappa=0.51$),语义等价的提示模板在25%的测试案例中改变了多数结果,确定性解码虽减少了不一致性但并未消除。可靠性曲线分析显示,在我们的数据集中,平均需要11次重复试次才能使多数投票以95%的概率恢复50次试次的参考裁决,对于高方差问题则需15次。这些发现表明,单次试次的LLM评判对于高风险评估而言往往噪声过大,因此多试次聚合、位置随机化以及明确的不确定性报告应成为标准实践。由于两个评估者均来自同一提供商,跨提供商的复现仍然是重要的下一步。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:55

# 硬币抛掷裁判?LLM作为评估者的可靠性与偏见
来源:https://arxiv.org/html/2606.13685
###### 摘要

LLM作为评估者(LLM-as-a-Judge)已被广泛用于对模型输出进行排名、训练奖励模型并填充公开排行榜,但其运行间的可靠性仍未被充分刻画。我们针对两个 OpenAI 评估模型(GPT-4o-mini 和 GPT-4.1-mini),在涵盖 10 个类别的 29 个任务上进行了重复的相同评估实验,每个问题执行 50 次成对比较和 50 次点式评分,并辅以温度和提示敏感性消融实验。整体来看,成对偏好平均有 13.6% 的翻转率,其中 28% 的问题翻转率超过 20%,有一个问题甚至达到 56%。GPT-4o-mini 还表现出显著的先出现位置偏差(72% 的 A 占多数,p=0.024)。同时,平均点式分数差距很小(在 10 分制上为 0.19–0.36),且整体上不具有统计显著性,从而产生了成对-点式差距:即评估者频繁选出胜者,即便其自身的标量分数几乎无法体现有意义的质量差异。除了评估者内部的不稳定性,跨评估者的一致性仅为 76%(κ=0.51),语义等价的提示模板在 25% 的测试案例中改变了多数结果,而确定性解码虽能减少但无法消除不一致性。可靠性曲线分析表明,在我们的数据集中,平均需要 11 次重复试验才能使多数投票以 95% 的概率恢复 50 次试验的参考裁决,而对于高方差问题则需 15 次。这些发现表明,单次 LLM 评估对于高风险任务往往过于嘈杂,多重试验聚合、位置随机化和明确的不确定性报告应成为标准实践。由于两个评估者均来自同一提供商,跨提供商的复现仍然是重要的下一步。

关键词:LLM 评估、LLM 作为评估者、评估者内部一致性、位置偏差、成对-点式差距、评估可靠性、组内相关系数、基准设计

## 1 引言

大型语言模型(LLM)评估者现已成为现代评估流程的核心。它们被用于对模型输出进行排名、在基准构建中近似人类偏好,以及在 RLHF 系统中作为奖励模型代理(Zheng et al., 2023 (https://arxiv.org/html/2606.13685#bib.bib1); Dubois et al., 2024 (https://arxiv.org/html/2606.13685#bib.bib3); Ouyang et al., 2022 (https://arxiv.org/html/2606.13685#bib.bib4); Bai et al., 2022 (https://arxiv.org/html/2606.13685#bib.bib5))。这一转变使得自动化评估变得显著更便宜、更具可扩展性,但也引发了一个基本的测量问题:如果我们多次向同一个评估者提出同一个问题,是否会得到相同的答案?

该问题不同于已被更充分研究的 LLM 评估者是否存在偏见的问题。先前的工作已在单次试验中记录了位置偏差、冗长偏差和自我增强效应(Wang et al., 2023 (https://arxiv.org/html/2606.13685#bib.bib6); Zheng et al., 2023 (https://arxiv.org/html/2606.13685#bib.bib1); Stureborg et al., 2024 (https://arxiv.org/html/2606.13685#bib.bib8))。我们的关注点是互补的。我们研究的是重复试验的可靠性:即固定的评估者在名义上相同的条件下,对相同的候选回答,跨运行返回相同裁决的程度。这直接影响基准的有效性。如果成对裁决在重复试验中波动,那么即使底层模型输出保持不变,单次试验的排行榜和论文表格也可能不稳定。

我们使用两个 OpenAI 评估模型,在涵盖 10 个类别的 29 个任务上探讨这一问题,每个问题进行 50 次成对比较和 50 次点式评分,外加温度和提示敏感性消融实验。本文有三个核心信息。第一,成对评估通常比表面看起来的噪声更大:平均翻转率为 13.6%,28% 的问题翻转率超过 20%。第二,成对裁决和点式分数可能不一致:即使评估者自身的平均标量分数几乎无法体现有意义的质量差距,评估者也常常选出胜者。第三,可靠性随重复投票呈可预测但非线性的提升:在我们的数据集中,平均需要 11 次试验才能使多数投票以 95% 的概率恢复 50 次试验的参考裁决。

更广泛地说,我们认为 LLM 评估者的可靠性并非单一属性。它至少分解为四个层次:评估者内部的随机不稳定性、系统偏差(例如先出现位置偏好)、对提示措辞和温度的协议敏感性,以及不同评估者之间的不一致性。将这些视为不同层次,有助于理解为什么表面上合理的评估流程仍可能得出脆弱的结论。

因此,我们的贡献包括:(i) 一个形式化框架,用于分离成对裁决、点式分数、评估者内部一致性和跨评估者一致性;(ii) 一个跨越 29 个任务和 10 个类别的 LLM 评估者可靠性的重复试验实证研究;(iii) 对成对-点式差距的分析,表明强制选择裁决可能夸大质量差异的证据;(iv) 可靠性曲线分析,将翻转率估计转化为具体的试验次数建议;(v) 关于在 LLM 作为评估者的评估中报告不确定性的实用指导。

## 2 相关工作

### 2.1 LLM 作为评估者框架

Zheng et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib1)) 引入了 MT-Bench 和 LLM-as-a-Judge 范式,证明了 GPT-4 的判断在整体上与人类偏好相关良好,同时识别出位置偏差和冗长偏差。Dubois et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib3)) 提出了 AlpacaFarm 用于指令跟随评估,表明 LLM 评估者可以以较低成本近似人类标注者,但长度偏差仍存在问题。Liu et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib7)) 提出了 G-Eval,使用思维链提示和概率校准来改善评估者与人类判断的一致性;他们展示了思维链显著有帮助,但未研究运行间方差。Zhu et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib9)) 提出了 JudgeLM,一个经过微调、针对一致性优化的评估模型,并报告了优于提示型 GPT-4 的一致性分数,不过全程使用了单次试验评估。

### 2.2 LLM 评估中的系统偏差

Wang et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib6)) 对 LLM 评估者偏见进行了全面研究,整理了位置偏差、冗长偏差和自我增强倾向,并提出了一个校准方法(交换增强评估)来缓解位置效应。他们的工作在每个偏差条件下测试的是单次试验,而非重复采样;我们的研究首次在 50 次试验规模下量化这些偏见。Stureborg et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib8)) 表明 LLM 评估者会系统性地受到表面特征的影响,包括回答长度、格式和项目符号密度,这些发现与冗长偏差一致,但未测量评估者内部的运行间方差。Shankar et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib10)) 提出了谁验证验证者这一元问题,认为 LLM 评估者框架需要在每个目标任务上针对人类标注者进行实证校准,这一立场得到了我们发现的强烈支持。

### 2.3 评估者可靠性与校准

在 LLM 之前的时代,自动化评估指标的可靠性已有研究:Amidei et al. (2019 (https://arxiv.org/html/2606.13685#bib.bib11)) 调查了 NLG 评估任务中的人类标注者间一致性,报告主观任务的 κ=0.3–0.6,这一范围与我们跨评估者 κ=0.51 的结果相符。Clark et al. (2021 (https://arxiv.org/html/2606.13685#bib.bib12)) 表明,生成文本的人类评估者存在显著分歧(约 20% 的成对不一致),将 LLM 评估者的不一致性置于更广泛的人类评估背景下。

在 LLM 评估者文献中,校准工作主要关注减少系统偏差,而非随机方差。我们的工作是正交的:我们研究的是随机方差(重新运行相同评估会改变什么?),这种方差无法通过偏差校正来消除,但可以通过多次试验聚合来处理。Shankar et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib10)) 以及其他学者的并行和补充工作强调,评估者模型的身份会显著影响结果,这与我们的 κ=0.51 跨评估者发现一致。

### 2.4 心理测量学中的可靠性测量

组内相关系数 (ICC) 是重复测量设计的标准心理测量可靠性系数(Amidei et al., 2019 (https://arxiv.org/html/2606.13685#bib.bib11))。ICC 值低于 0.60 通常被归类为“差到中等”可靠性(Clark et al., 2021 (https://arxiv.org/html/2606.13685#bib.bib12)),这为我们的 ICC(2,1) 估计提供了有原则的解释框架。使用多数投票来聚合随机分类器在集成学习中已有充分研究;我们的可靠性曲线分析(第 5.9 节 (https://arxiv.org/html/2606.13685#S5.SS9))首次提供了针对 LLM 评估者聚合的此类分析,表明额外试验带来的收益呈凹形曲线,约 20 次试验后收益递减。

### 2.5 本文定位

我们的研究与 Stureborg et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib8)) 最具直接可比性,他们也测量了 LLM 评估者的不一致性。关键区别在于:(i) 我们对每个问题使用 50 次试验(而大多数先前工作 ≤5 次),从而能够通过自举置信区间进行高精度翻转率估计;(ii) 我们引入成对-点式悖论作为独立的故障模式,表明成对强制选择会放大本不存在的质量差异;(iii) 我们提供了基于心理测量方法学的可靠性曲线和 ICC 分析;(iv) 我们通过排行榜噪声预算量化了下游影响。我们的工作与 Wang et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib6))(他们研究带有回答交换的系统偏差)范围互补,并在此基础上增加了随机方差分析。

## 3 形式化框架

我们区分 LLM 作为评估者行为的四个相关但不同的层次:(i) 当评估者被强制在两个回答之间选择时产生的成对裁决,(ii) 当每个回答被独立评估时赋予的点式分数,(iii) 同一评估者在固定条件下重复评估的评估者内部一致性,以及 (iv) 不同评估者模型在同一项目上的跨评估者一致性。这种分离很重要,因为任何一个层次的不稳定性都可能破坏基准的有效性,即使其他层次看起来表现良好。

定义 1(评估试验)。一次评估试验是一个从输入元组 (q, r_A, r_B, p, θ) 到输出的随机映射,其中 q 是提示或问题,r_A 和 r_B 是候选回答,p 是评估提示模板,θ 表示评估者端设置,如模型选择、解码温度和回答顺序。在成对模式下,输出为 y ∈ {A, B, tie};在点式模式下,输出为标量分数 s ∈ [1, 10]。

定义 2(评估者内部一致性)。对于固定元组 (q, r_A, r_B, p, θ) 和评估者模型 J,评估者内部一致性是重复试验中输出分布的稳定性。完全一致性意味着所有重复试验产生相同的裁决(成对)或相同的分数(点式);较低的一致性对应更宽的重复试验分布。

定义 3(翻转率)。对于 N 次重复成对试验,结果计数为 (n_A, n_B, n_tie),翻转率为:
FR = 1 - max(n_A, n_B, n_tie) / N    (1)
该指标衡量不支持多数结果的比例。翻转率越高,成对不稳定性越大。

定义 4(成对-点式差距)。设 s̄_A 和 s̄_B 为重复试验中平均点式分数。成对-点式差距指的是这样一种经验情况:成对裁决看似决定性的,而对应的点式分数差距 |s̄_A - s̄_B| 却很小或统计上不显著。

该框架为本文中测试的三个假设提供了动机:
1. H1:成对不稳定性超出仅凭点式分数差距所能预测的范围。具体而言,许多平均分数差距很小的问题仍会表现出非平凡的成对翻转率。
2. H2:位置偏差在不同评估者之间系统性地变化。即使在随机呈现的条件下,一些评估者也会表现出比另一些更强的先出现位置偏好。
3. H3:共识可靠性遵循凹形饱和曲线。额外试验在早期快速提高多数投票可靠性,随后收益递减。

## 4 方法

### 4.1 评估数据集

我们构建了一个多样化的评估集,包含 29 个问题-回答对,涵盖 10 个类别:写作 (3)、推理 (3)、编码 (3)、知识 (3)、数学 (3)、角色扮演 (2)、提取 (3)、伦理 (2)、指令跟随 (3) 以及困难/模糊任务 (4)。对于每个问题,我们使用了来自不同模型层级(GPT-4o-mini 和 GPT-4o)的两个高质量回答,以确保有意义的比较目标。

回答对被特意选择为具有竞争性,两个回答质量都很高,但在风格、结构或方法上有所不同。点式评估证实了这一点:在两个评估者下,回答 A 平均得分 9.3/10 (σ=0.9),回答 B 平均得分 9.4/10 (σ=0.6),表明两个回答均被一致评为高质量。这种设计最大化了我们一致性测量的灵敏度;若回答差异明显,则会人为地提高一致性。我们指出,这代表了一种压力测试:现实世界中的评估往往涉及更多样化的质量水平,而对于存在明显质量差异的回答对,一致性可能会更高。

### 4.2 评估模型

我们评估了来自 GPT-4 系列的两个评估模型:
- GPT-4o-mini:一种常用于大规模评估的性价比模型
- GPT-4.1-mini:来自 GPT-4.1 系列的新变体

两个模型均通过 OpenAI API 访问。主实验使用默认温度 (t=1.0) 以反映实际使用情况;补充消融研究评估了 t=0(确定性解码)。

### 4.3 评估协议

实验 1(主实验)。对于每个(评估者,问题)组合,我们进行了:
1. 成对比较(×50 次):评估者被问到“哪个回答更好?”,并在各试验中随机化 A/B 呈现顺序。
2. 点式评分(每个回答 ×50 次):每个回答独立在 1-10 量表上评分。
这产生了 29 × 2 × (50 + 50 + 50) = 8,700 次总 API 调用。50 次试验的设计提供了足够的统计功效来区分真实偏好与噪声(二项检验 p<0.05 需要 ≥33/50 才能显著)。

实验 2(温度消融)。我们在 t=0 的设置下重复进行了 10 次成对比较(每个评估者,

相似文章

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。

评判电路

arXiv cs.CL

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。