抛硬币裁判？LLM-as-a-Judge评估的可靠性与偏见

arXiv cs.CL 2026/06/15 04:00 论文

摘要

本文研究了LLM-as-a-Judge评估的运行间可靠性，发现平均13.6%的成对偏好会发生翻转，GPT-4o-mini存在显著的首位偏见，并建议采用多试次聚合与位置随机化。

arXiv:2606.13685v1 公告类型：新摘要：LLM-as-a-Judge现已被广泛用于对模型输出进行排名、训练奖励模型以及填充公共排行榜，但其运行间可靠性仍未得到充分表征。我们使用两个OpenAI评估模型（GPT-4o-mini和GPT-4.1-mini）对涵盖10个类别的29个任务进行了重复相同的评估，每个问题进行了50组成对试次和50组逐点评分试次，并辅以温度和提示敏感性消融实验。跨评估者来看，成对偏好平均有13.6%的时间发生翻转，其中28%的问题翻转率超过20%，一个问题甚至达到56%。GPT-4o-mini还表现出显著的首位偏见（72%的A占多数，p=0.024）。同时，逐点评分的平均分数差异很小（10分制下为0.19–0.36），且总体上不具有统计显著性，从而产生了成对-逐点差异：评估者经常选出一个赢家，即便它们自己的标量分数几乎无法证明存在有意义的质量差异。除了评估者内部的不稳定性，跨评估者的一致性仅为76%（$\kappa=0.51$），语义等价的提示模板在25%的测试案例中改变了多数结果，确定性解码虽减少了不一致性但并未消除。可靠性曲线分析显示，在我们的数据集中，平均需要11次重复试次才能使多数投票以95%的概率恢复50次试次的参考裁决，对于高方差问题则需15次。这些发现表明，单次试次的LLM评判对于高风险评估而言往往噪声过大，因此多试次聚合、位置随机化以及明确的不确定性报告应成为标准实践。由于两个评估者均来自同一提供商，跨提供商的复现仍然是重要的下一步。

查看原文

查看缓存全文

缓存时间: 2026/06/15 08:55

# 硬币抛掷裁判？LLM作为评估者的可靠性与偏见
来源：https://arxiv.org/html/2606.13685
###### 摘要

LLM作为评估者（LLM-as-a-Judge）已被广泛用于对模型输出进行排名、训练奖励模型并填充公开排行榜，但其运行间的可靠性仍未被充分刻画。我们针对两个 OpenAI 评估模型（GPT-4o-mini 和 GPT-4.1-mini），在涵盖 10 个类别的 29 个任务上进行了重复的相同评估实验，每个问题执行 50 次成对比较和 50 次点式评分，并辅以温度和提示敏感性消融实验。整体来看，成对偏好平均有 13.6% 的翻转率，其中 28% 的问题翻转率超过 20%，有一个问题甚至达到 56%。GPT-4o-mini 还表现出显著的先出现位置偏差（72% 的 A 占多数，p=0.024）。同时，平均点式分数差距很小（在 10 分制上为 0.19–0.36），且整体上不具有统计显著性，从而产生了成对-点式差距：即评估者频繁选出胜者，即便其自身的标量分数几乎无法体现有意义的质量差异。除了评估者内部的不稳定性，跨评估者的一致性仅为 76%（κ=0.51），语义等价的提示模板在 25% 的测试案例中改变了多数结果，而确定性解码虽能减少但无法消除不一致性。可靠性曲线分析表明，在我们的数据集中，平均需要 11 次重复试验才能使多数投票以 95% 的概率恢复 50 次试验的参考裁决，而对于高方差问题则需 15 次。这些发现表明，单次 LLM 评估对于高风险任务往往过于嘈杂，多重试验聚合、位置随机化和明确的不确定性报告应成为标准实践。由于两个评估者均来自同一提供商，跨提供商的复现仍然是重要的下一步。

关键词：LLM 评估、LLM 作为评估者、评估者内部一致性、位置偏差、成对-点式差距、评估可靠性、组内相关系数、基准设计

## 1 引言

大型语言模型（LLM）评估者现已成为现代评估流程的核心。它们被用于对模型输出进行排名、在基准构建中近似人类偏好，以及在 RLHF 系统中作为奖励模型代理（Zheng et al., 2023 (https://arxiv.org/html/2606.13685#bib.bib1); Dubois et al., 2024 (https://arxiv.org/html/2606.13685#bib.bib3); Ouyang et al., 2022 (https://arxiv.org/html/2606.13685#bib.bib4); Bai et al., 2022 (https://arxiv.org/html/2606.13685#bib.bib5)）。这一转变使得自动化评估变得显著更便宜、更具可扩展性，但也引发了一个基本的测量问题：如果我们多次向同一个评估者提出同一个问题，是否会得到相同的答案？

该问题不同于已被更充分研究的 LLM 评估者是否存在偏见的问题。先前的工作已在单次试验中记录了位置偏差、冗长偏差和自我增强效应（Wang et al., 2023 (https://arxiv.org/html/2606.13685#bib.bib6); Zheng et al., 2023 (https://arxiv.org/html/2606.13685#bib.bib1); Stureborg et al., 2024 (https://arxiv.org/html/2606.13685#bib.bib8)）。我们的关注点是互补的。我们研究的是重复试验的可靠性：即固定的评估者在名义上相同的条件下，对相同的候选回答，跨运行返回相同裁决的程度。这直接影响基准的有效性。如果成对裁决在重复试验中波动，那么即使底层模型输出保持不变，单次试验的排行榜和论文表格也可能不稳定。

我们使用两个 OpenAI 评估模型，在涵盖 10 个类别的 29 个任务上探讨这一问题，每个问题进行 50 次成对比较和 50 次点式评分，外加温度和提示敏感性消融实验。本文有三个核心信息。第一，成对评估通常比表面看起来的噪声更大：平均翻转率为 13.6%，28% 的问题翻转率超过 20%。第二，成对裁决和点式分数可能不一致：即使评估者自身的平均标量分数几乎无法体现有意义的质量差距，评估者也常常选出胜者。第三，可靠性随重复投票呈可预测但非线性的提升：在我们的数据集中，平均需要 11 次试验才能使多数投票以 95% 的概率恢复 50 次试验的参考裁决。

更广泛地说，我们认为 LLM 评估者的可靠性并非单一属性。它至少分解为四个层次：评估者内部的随机不稳定性、系统偏差（例如先出现位置偏好）、对提示措辞和温度的协议敏感性，以及不同评估者之间的不一致性。将这些视为不同层次，有助于理解为什么表面上合理的评估流程仍可能得出脆弱的结论。

因此，我们的贡献包括：(i) 一个形式化框架，用于分离成对裁决、点式分数、评估者内部一致性和跨评估者一致性；(ii) 一个跨越 29 个任务和 10 个类别的 LLM 评估者可靠性的重复试验实证研究；(iii) 对成对-点式差距的分析，表明强制选择裁决可能夸大质量差异的证据；(iv) 可靠性曲线分析，将翻转率估计转化为具体的试验次数建议；(v) 关于在 LLM 作为评估者的评估中报告不确定性的实用指导。

## 2 相关工作

### 2.1 LLM 作为评估者框架

Zheng et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib1)) 引入了 MT-Bench 和 LLM-as-a-Judge 范式，证明了 GPT-4 的判断在整体上与人类偏好相关良好，同时识别出位置偏差和冗长偏差。Dubois et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib3)) 提出了 AlpacaFarm 用于指令跟随评估，表明 LLM 评估者可以以较低成本近似人类标注者，但长度偏差仍存在问题。Liu et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib7)) 提出了 G-Eval，使用思维链提示和概率校准来改善评估者与人类判断的一致性；他们展示了思维链显著有帮助，但未研究运行间方差。Zhu et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib9)) 提出了 JudgeLM，一个经过微调、针对一致性优化的评估模型，并报告了优于提示型 GPT-4 的一致性分数，不过全程使用了单次试验评估。

### 2.2 LLM 评估中的系统偏差

Wang et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib6)) 对 LLM 评估者偏见进行了全面研究，整理了位置偏差、冗长偏差和自我增强倾向，并提出了一个校准方法（交换增强评估）来缓解位置效应。他们的工作在每个偏差条件下测试的是单次试验，而非重复采样；我们的研究首次在 50 次试验规模下量化这些偏见。Stureborg et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib8)) 表明 LLM 评估者会系统性地受到表面特征的影响，包括回答长度、格式和项目符号密度，这些发现与冗长偏差一致，但未测量评估者内部的运行间方差。Shankar et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib10)) 提出了谁验证验证者这一元问题，认为 LLM 评估者框架需要在每个目标任务上针对人类标注者进行实证校准，这一立场得到了我们发现的强烈支持。

### 2.3 评估者可靠性与校准

在 LLM 之前的时代，自动化评估指标的可靠性已有研究：Amidei et al. (2019 (https://arxiv.org/html/2606.13685#bib.bib11)) 调查了 NLG 评估任务中的人类标注者间一致性，报告主观任务的 κ=0.3–0.6，这一范围与我们跨评估者 κ=0.51 的结果相符。Clark et al. (2021 (https://arxiv.org/html/2606.13685#bib.bib12)) 表明，生成文本的人类评估者存在显著分歧（约 20% 的成对不一致），将 LLM 评估者的不一致性置于更广泛的人类评估背景下。

在 LLM 评估者文献中，校准工作主要关注减少系统偏差，而非随机方差。我们的工作是正交的：我们研究的是随机方差（重新运行相同评估会改变什么？），这种方差无法通过偏差校正来消除，但可以通过多次试验聚合来处理。Shankar et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib10)) 以及其他学者的并行和补充工作强调，评估者模型的身份会显著影响结果，这与我们的 κ=0.51 跨评估者发现一致。

### 2.4 心理测量学中的可靠性测量

组内相关系数 (ICC) 是重复测量设计的标准心理测量可靠性系数（Amidei et al., 2019 (https://arxiv.org/html/2606.13685#bib.bib11)）。ICC 值低于 0.60 通常被归类为“差到中等”可靠性（Clark et al., 2021 (https://arxiv.org/html/2606.13685#bib.bib12)），这为我们的 ICC(2,1) 估计提供了有原则的解释框架。使用多数投票来聚合随机分类器在集成学习中已有充分研究；我们的可靠性曲线分析（第 5.9 节 (https://arxiv.org/html/2606.13685#S5.SS9)）首次提供了针对 LLM 评估者聚合的此类分析，表明额外试验带来的收益呈凹形曲线，约 20 次试验后收益递减。

### 2.5 本文定位

我们的研究与 Stureborg et al. (2024 (https://arxiv.org/html/2606.13685#bib.bib8)) 最具直接可比性，他们也测量了 LLM 评估者的不一致性。关键区别在于：(i) 我们对每个问题使用 50 次试验（而大多数先前工作 ≤5 次），从而能够通过自举置信区间进行高精度翻转率估计；(ii) 我们引入成对-点式悖论作为独立的故障模式，表明成对强制选择会放大本不存在的质量差异；(iii) 我们提供了基于心理测量方法学的可靠性曲线和 ICC 分析；(iv) 我们通过排行榜噪声预算量化了下游影响。我们的工作与 Wang et al. (2023 (https://arxiv.org/html/2606.13685#bib.bib6))（他们研究带有回答交换的系统偏差）范围互补，并在此基础上增加了随机方差分析。

## 3 形式化框架

我们区分 LLM 作为评估者行为的四个相关但不同的层次：(i) 当评估者被强制在两个回答之间选择时产生的成对裁决，(ii) 当每个回答被独立评估时赋予的点式分数，(iii) 同一评估者在固定条件下重复评估的评估者内部一致性，以及 (iv) 不同评估者模型在同一项目上的跨评估者一致性。这种分离很重要，因为任何一个层次的不稳定性都可能破坏基准的有效性，即使其他层次看起来表现良好。

定义 1（评估试验）。一次评估试验是一个从输入元组 (q, r_A, r_B, p, θ) 到输出的随机映射，其中 q 是提示或问题，r_A 和 r_B 是候选回答，p 是评估提示模板，θ 表示评估者端设置，如模型选择、解码温度和回答顺序。在成对模式下，输出为 y ∈ {A, B, tie}；在点式模式下，输出为标量分数 s ∈ [1, 10]。

定义 2（评估者内部一致性）。对于固定元组 (q, r_A, r_B, p, θ) 和评估者模型 J，评估者内部一致性是重复试验中输出分布的稳定性。完全一致性意味着所有重复试验产生相同的裁决（成对）或相同的分数（点式）；较低的一致性对应更宽的重复试验分布。

定义 3（翻转率）。对于 N 次重复成对试验，结果计数为 (n_A, n_B, n_tie)，翻转率为：
FR = 1 - max(n_A, n_B, n_tie) / N    (1)
该指标衡量不支持多数结果的比例。翻转率越高，成对不稳定性越大。

定义 4（成对-点式差距）。设 s̄_A 和 s̄_B 为重复试验中平均点式分数。成对-点式差距指的是这样一种经验情况：成对裁决看似决定性的，而对应的点式分数差距 |s̄_A - s̄_B| 却很小或统计上不显著。

该框架为本文中测试的三个假设提供了动机：
1. H1：成对不稳定性超出仅凭点式分数差距所能预测的范围。具体而言，许多平均分数差距很小的问题仍会表现出非平凡的成对翻转率。
2. H2：位置偏差在不同评估者之间系统性地变化。即使在随机呈现的条件下，一些评估者也会表现出比另一些更强的先出现位置偏好。
3. H3：共识可靠性遵循凹形饱和曲线。额外试验在早期快速提高多数投票可靠性，随后收益递减。

## 4 方法

### 4.1 评估数据集

我们构建了一个多样化的评估集，包含 29 个问题-回答对，涵盖 10 个类别：写作 (3)、推理 (3)、编码 (3)、知识 (3)、数学 (3)、角色扮演 (2)、提取 (3)、伦理 (2)、指令跟随 (3) 以及困难/模糊任务 (4)。对于每个问题，我们使用了来自不同模型层级（GPT-4o-mini 和 GPT-4o）的两个高质量回答，以确保有意义的比较目标。

回答对被特意选择为具有竞争性，两个回答质量都很高，但在风格、结构或方法上有所不同。点式评估证实了这一点：在两个评估者下，回答 A 平均得分 9.3/10 (σ=0.9)，回答 B 平均得分 9.4/10 (σ=0.6)，表明两个回答均被一致评为高质量。这种设计最大化了我们一致性测量的灵敏度；若回答差异明显，则会人为地提高一致性。我们指出，这代表了一种压力测试：现实世界中的评估往往涉及更多样化的质量水平，而对于存在明显质量差异的回答对，一致性可能会更高。

### 4.2 评估模型

我们评估了来自 GPT-4 系列的两个评估模型：
- GPT-4o-mini：一种常用于大规模评估的性价比模型
- GPT-4.1-mini：来自 GPT-4.1 系列的新变体

两个模型均通过 OpenAI API 访问。主实验使用默认温度 (t=1.0) 以反映实际使用情况；补充消融研究评估了 t=0（确定性解码）。

### 4.3 评估协议

实验 1（主实验）。对于每个（评估者，问题）组合，我们进行了：
1. 成对比较（×50 次）：评估者被问到“哪个回答更好？”，并在各试验中随机化 A/B 呈现顺序。
2. 点式评分（每个回答 ×50 次）：每个回答独立在 1-10 量表上评分。
这产生了 29 × 2 × (50 + 50 + 50) = 8,700 次总 API 调用。50 次试验的设计提供了足够的统计功效来区分真实偏好与噪声（二项检验 p<0.05 需要 ≥33/50 才能显著）。

实验 2（温度消融）。我们在 t=0 的设置下重复进行了 10 次成对比较（每个评估者,

抛硬币裁判？LLM-as-a-Judge评估的可靠性与偏见

相似文章

面向可靠LLM判断的边际自适应置信度排序

评判电路

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

RankJudge：一个多轮LLM-as-a-Judge合成基准生成器

@ArizePhoenix：谁来评判评估者？当你使用LLM作为评判者时，你正在信任一个模型来决定你的代理、工作流……

提交意见反馈