LLM作为评委评估的一致性指标:报告什么以及为什么
摘要
本文探讨了当标准为二元时,哪些用于LLM评委验证的一致性统计是冗余的,并提供了一个包含弃权处理在内的正确报告清单。
arXiv:2606.00093v1 Announce Type: new
摘要:验证LLM评委与人类标注的一致性通常需要报告多个一致性统计量:准确率、精确率、召回率、$F_1$、Cohen's $\kappa$ 以及一个或多个秩相关。对24篇近期LLM作为评委论文的调查发现,指标选择与判断尺度、平局处理、无效输出和弃权处理纠缠在一起,且这些选择很少被说明。对于二元标准——基于量规评估中的常见情况,每个标准评为MET或UNMET——报告的大多数数字是冗余的:Pearson's $r$、Spearman's $\rho$、Kendall's $\tau_b$、phi系数$\phi$和Matthews相关系数在非退化的二元数据上都会简化为单一数字,因此报告其中多个只会造成佐证假象。Cohen's $\kappa$ 是唯一增加信息的一致性系数:它与$\phi$共享分子但归一化方式不同,两者之间的差距衡量了评委的正标签率相对于人类偏离了多少。然后我们追踪当评委可能以CANNOT_ASSESS裁决弃权时发生的变化:三种常见的弃权处理方式并非可互换的预处理选择,而是回答不同的问题,并且它们打破了二元等价性。相同的等价性(在可忽略的有限样本修正范围内)会重新出现在使用Fleiss' $\kappa$或Krippendorff's $\alpha$的多评委集成评分中。最后我们提供一个报告清单,其中指定了判断尺度、弃权和平局处理模式、覆盖率、混淆矩阵以及聚合水平,同时附上任何标量一致性系数。
查看缓存全文
缓存时间: 2026/06/02 15:35
# 报告什么以及为什么这样做 来源:https://arxiv.org/html/2606.00093 ## 针对 LLM 作为评判者评估的一致性指标:报告什么以及为什么这样做 Delip Rao 宾夕法尼亚大学 [email protected] &Chris Callison-Burch 宾夕法尼亚大学 [email protected] ###### 摘要 针对人类标注验证 LLM 评判者通常需要报告多个一致性统计量:准确率、精确率、召回率、F1、Cohen’s κ 以及一个或多个秩相关。对 24 篇近期 LLM 作为评判者论文的调查发现,指标选择与判断尺度、平局处理、无效输出以及弃权处理纠缠在一起,而这些选择很少被明确说明。对于二元标准——这是基于评分标准评估中的常见情况,每个标准被评定为“符合”或“不符合”——报告的大多数数字都是冗余的:Pearson’s r、Spearman’s ρ、Kendall’s τb、phi 系数 φ 以及马修斯相关系数在非退化二元数据上都归结为同一个数字,因此报告多个只会造成佐证证据的错觉。Cohen’s κ 是唯一增加信息量的一致性系数:它与 φ 共享分子,但归一化方式不同,两者之间的差距衡量了评判者的正标签率偏离人类正标签率的程度。然后,我们追踪当评判者可能以“无法评估”裁决弃权时发生的变化:处理弃权的三种常见方式并非可互换的预处理选择,而是回答了不同的问题,并且它们打破了二元等价关系。当使用 Fleiss’ κ 或 Krippendorff’s α 评估多评判者集成时,相同的等价关系会重新出现,但存在可忽略的有限样本修正。最后,我们提供一个报告清单,其中命名了判断尺度、弃权和平局处理方式、覆盖率、混淆矩阵以及聚合级别,同时附有标量一致性系数。 针对 LLM 作为评判者评估的一致性指标:报告什么以及为什么这样做 Delip Rao*††感谢:通讯作者 宾夕法尼亚大学 [email protected] Chris Callison-Burch 宾夕法尼亚大学 [email protected] ![[未标注图片]](https://arxiv.org/html/2606.00093v1/figures/key_illustration.png) 图1:验证 LLM 评判者会产生许多一致性系数。本文探讨哪些是独立的、哪些只是相互重复,弃权的评判者如何使分析复杂化,以及如何处理多个评判者。## 1 引言 只有在针对人类标注验证之后,LLM 评判者才能获得信任,而这种验证以一组一致性统计量呈现给读者:准确率、精确率、召回率、F1、Cohen’s κ 以及一个或多个秩相关(Pearson、Spearman、Kendall)。一个常见的情况是**基于评分标准的评估**,其中整体判断被分解为独立评分的标准,每个标准通常为二元(符合/不符合)(Hashemi et al., 2024; Saad-Falcon et al., 2023)。为了解这些统计量在实际中的报告方式,我们调查了 24 篇近期的 LLM 作为评判者和 LLM 评估器论文(附录 A 中提供了每个系统的完整编码)。指标选择与判断尺度相关联:对于分级或连续分数,会同时报告几个秩相关(例如,Liu et al., 2023; Ye et al., 2024; Kim et al., 2024),而对于二元或成对裁决,则使用准确率、一致性、胜率、F1 或 κ(例如,Zheng et al., 2023; Verga et al., 2024; Lee et al., 2026)。平局、无效输出、拒绝响应以及信息不足(无法评估)响应¹²的处理方式多种多样——有时被排除,有时被归入有效标签——并且几乎从未作为深思熟虑的选择被报告。 当前论文没有阐明的是这些选择的代价。在二元裁决上,报告的几个系数是独立的证据还是一个数字的多种计算方式?当评判者可能弃权时,弃权的解决方式是否改变了被估计的量,还是这只是无害的预处理?解决这些问题的关系是经典的(Cohen, 1960; Matthews, 1975; Warrens, 2008),但它们很少与 LLM 评判者的评分方式联系起来,并且弃权被当作预处理细节而非建模选择。这种差距不是数学上的缺失,而是缺乏对报告数字在 LLM 评判者实际产生的尺度上含义的说明。 本文提供这种说明。这是一项带有报告指南的分析,而非全面调查:贡献包括对 24 个近期系统如何报告一致性的审计(附录 A)、关于哪些二元一致性统计量是冗余的以及它们的差异衡量什么的统一说明、对“无法评估”裁决的估计量级处理,以及一个报告清单(第 8 节)。该分析只需要验证已经产生的 2×2 混淆矩阵。首先,对于非退化二元裁决,Pearson’s r、Spearman’s ρ、Kendall’s τb、φ 和 MCC 是单一统计量,而 Cohen’s κ 仅通过边缘敏感归一化与之不同;我们阐述其报告意义(第 3-5 节)。其次,“无法评估”裁决是估计量的选择,而非预处理步骤:三种处理方式回答不同的问题——一种选择性预测视角(Chow, 1970; El-Yaniv and Wiener, 2010; Kamath et al., 2020)——并且一旦引入第三类,二元等价关系就被打破(第 6 节)。第三,这种等价关系扩展到多评判者集成,其中 Fleiss’ κ、Krippendorff’s α 和平均配对 φ 在可忽略的有限样本修正下一致(第 7 节)。我们以一个报告清单结束(第 8 节),其中命名了判断尺度、弃权和平局处理方式、覆盖率、混淆矩阵以及聚合级别,同时附有标量系数。 ## 2 预备知识 考虑由每个标准判断引起的二元分类问题。设 yi ∈ {0,1} 表示项目 i ∈ {1,…,N} 的基准真实标签,其中 1 编码正面裁决(例如,符合),0 编码负面裁决(不符合);设 ŷi 表示 LLM 评判者的预测。弃权推迟到第 6 节讨论。2×2 混淆矩阵的每个单元格是一个数据集级别的计数:项目 i 的基准真实标签 yi 和预测标签 ŷi 等于行和列值的数量。将此计数记为 nab = |{i: yi = a, ŷi = b}|,四个单元格为 TP = n11,FN = n10,FP = n01,以及 TN = n00: ``` ŷ=1 ŷ=0 y=1 TP FN y=0 FP TN ``` 其中 N = TP + FN + FP + TN 是项目总数。令 π = (TP + FN)/N 表示真实流行率,π̂ = (TP + FP)/N 表示预测阳性率。 ### 2.1 判断尺度与范围 以下恒等式对于二元向量是精确的;它们并不使 Pearson、Spearman 和 Kendall 在分级、有序或连续分数上变得冗余。因此,第一个报告决策是评估者产生了什么判断尺度,而不是计算哪个指标。表 1 列出了近期工作中遇到的五种尺度以及每种尺度所需的度量框架。 表 1:LLM 作为评判者评估的判断尺度分类。等价结果涉及二元行;含弃权的名义行在第 6 节讨论。本文的其余部分阐述二元行(第 3-5 节),并在引入弃权后阐述名义行(第 6 节);有序和连续尺度不在这些结果的范围内。 ## 3 封闭形式的指标定义 直接用 TP、FP、FN、TN 表示的标准定义: #### 准确率: Acc = (TP + TN)/N ≡ po. (1) #### F1、精确率和召回率(正类): 精确率 P = TP/(TP + FP),召回率 R = TP/(TP + FN),F1 分数是它们的调和平均值 F1 = 2PR/(P + R) = 2TP/(2TP + FP + FN). (2) F1 不依赖于 TN,并且在标签翻转(符合 ↔ 不符合)下不对称。² 精确率和召回率是以下崩溃情况的例外:后续的每个对称统计量(准确率、κ、φ、秩相关和 F1)在 FP ↔ FN 下不变,因此没有一个能区分遗漏正例的评判者和过度预测正例的评判者。 #### Cohen’s κ: 预期一致性 pe = ππ̂ + (1-π)(1-π̂) (Cohen, 1960), κ = (po - pe)/(1 - pe). (3) 乘以 N² 并消去公共项得 κ = 2(TP·TN - FP·FN) / [(TP+FN)(FN+TN) + (TP+FP)(FP+TN)]. (4) #### Phi 系数和 MCC: 对于二元向量,Pearson 相关简化为 phi 系数 (Matthews, 1975), φ = (TP·TN - FP·FN) / [√((TP+FP)(TP+FN)) · 1/√((TN+FP)(TN+FN))], (5) 它与二元马修斯相关系数相同。 ## 4 二元数据上五个指标的等价性 观察 1 对于任意一对非退化边缘的二元向量 (y, ŷ) ∈ {0,1}ⁿ, ρ_Pearson(y, ŷ) = ρ_Spearman(y, ŷ) = τb(y, ŷ) = φ(y, ŷ) = MCC(y, ŷ). (6) 这个结果是经典的,并且遵循基础统计量的标准性质,但其报告后果(第 8 节)在 LLM 作为评判者的工作中容易被忽视。Pearson-MCC-phi 恒等式直接从式 (5) 得出。两个不明显的部分是为什么 Spearman 和 Kendall 在二元数据上与 Pearson 一致。 #### 为什么 Spearman 在二元数据上等于 Pearson? Spearman’s ρ 是对秩变换输入计算的 Pearson’s r。由于只有两个不同的值存在,所有零获得共同平均秩 a0 = (n0 + 1)/2,所有一获得 a1 = n0 + (n1 + 1)/2,其中 n0, n1 是零和一的计数。映射 x ↦ a0 + (a1 - a0)x 是仿射的,而 Pearson’s r 在任一分量的仿射缩放下不变——因此 ρ_Spearman = ρ_Pearson。 #### 为什么 Kendall’s τb 在二元数据上等于 φ? 平局校正形式 (Kendall, 1945) 为 τb = (C - D) / √((n_tot - ny)(n_tot - nŷ)), (7) 其中 n_tot = C(N,2),ny, nŷ 分别是在 y 和 ŷ 上平局的对数。从第 2 节 2×2 表的单元格读取对类型:一致对连接一个 (1,1) 单元格和一个 (0,0) 单元格,所以 C = TP·TN;不一致对连接一个 (1,0) 单元格和一个 (0,1) 单元格,所以 D = FN·FP。y 上未平局的对数为 n_tot - ny = (TP+FN)(FP+TN),ŷ 上未平局的对数为 n_tot - nŷ = (TP+FP)(FN+TN)。代入得 τb = (TP·TN - FP·FN) / √[(TP+FN)(FP+TN)] × 1/√[(TP+FP)(FN+TN)] = φ,匹配式 (5)。 ## 5 Cohen’s κ 与边缘敏感性 Cohen’s κ 接近第 4 节的公共值但不相等。这种差距完全由评判者的正预测率与人类的正预测率的匹配程度控制。 比较式 (4) 和式 (5),分子 TP·TN - FP·FN 是共享的(相差因子 2)。分母不同: Dκ = (TP+FN)(FN+TN) + (TP+FP)(FP+TN), (9) Dφ = 2√[(TP+FN)(FN+TN)] × √[(TP+FP)(FP+TN)]. (10) 记 A = (TP+FN)(FN+TN) 和 B = (TP+FP)(FP+TN),我们有 Dκ = A + B 和 Dφ = 2√(AB)。由 AM-GM 不等式 A + B ≥ 2√(AB),等号成立当且仅当 A = B,得 κ/φ = 2√(AB)/(A+B) ≤ 1, (11) 以及 |κ| ≤ |φ|, (12) 等号成立当且仅当 A = B,等价于 π = π̂。 因此,Cohen’s κ 以 φ 所没有的方式惩罚评判者的边缘分布与基准真实的不匹配。一个对项目排序完美但采用的阳性率不同于人类标注者的评判者,其 κ 严格低于 φ。 另一个重构将 κ 改写为重新标度的准确率:κ = (Acc - pe)/(1 - pe)。在平衡情况 π = π̂ = 0.5 时,pe = 0.5 且 κ = 2Acc - 1。在极端流行率情况 π → 1(或 π → 0)时,pe → 1,小的准确率差距驱使 κ 趋于零或负值——这是 Feinstein 和 Cicchetti (1
相似文章
LLM-as-Judge的几何学:为何LLM间共识并非人类对齐
本文从几何角度分析了为何作为裁判的LLM彼此之间高度一致,但与人类仅弱相关,发现LLM间共识在主观评分标准上反映的是坍塌子空间,而非真正的人类对齐。基于人类数据的后验校准提高了对齐,但即使经过校准的LLM也未达到人类的可靠性。
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
Metric Match:一种评估LLM裁判可靠性的子集选择方法
本文介绍了一种名为Metric Match的方法,通过选择样本子集进行人工标注,以更高效地估计LLM裁判的可靠性,将标注成本降低32.5%,并相对于随机选择实现了0.838的胜率。
抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见
本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。
LLM裁判存在暗电流:用于LLM-as-a-Judge评估的心理测量数据表
本文介绍了一种心理测量数据表协议,用于将LLM裁判作为测量工具进行评估,测量暗电流、位置虚假偏好、稳定交叉敏感性和目标敏感性。基于三个开放权重模型的案例研究揭示了裁判质量和行为的显著差异。