Metric Match:一种评估LLM裁判可靠性的子集选择方法
摘要
本文介绍了一种名为Metric Match的方法,通过选择样本子集进行人工标注,以更高效地估计LLM裁判的可靠性,将标注成本降低32.5%,并相对于随机选择实现了0.838的胜率。
arXiv:2606.15029v1 公告类型:新
摘要:LLM裁判被用于减少评估开放式文本生成时对昂贵人工劳动的需求。然而,这些裁判的可靠性关键取决于它们与人类评分者的一致性——这一属性本身依赖于昂贵的人工标注。在这项工作中,我们开发了一种方法(Metric Match),用于从有限的标注中估计LLM裁判基于相关性的可靠性指标。Metric Match选择样本子集进行人工标注,使得该子集在获取的合成标签方面与总体可靠性指标相匹配。我们通过实验表明,在四种不同的相关性指标和15个数据集上,Metric Match相对于随机子集选择实现了0.838的胜率,平均估计误差降低了18.7%,标注需求减少了32.5%。我们提供了一个成本模型,并强调了一个医学案例研究,在该案例中,我们的方法相比随机选择为专家标注节省了1,041.67美元。此外,我们将任务从可靠性估计转变为可靠性分类,即判断给定裁判是否超过部署阈值,使用Metric Match优于随机选择。所有项目代码均已公开,我们还提供了一个可安装的包以便使用。
查看缓存全文
缓存时间: 2026/06/16 11:43
# 指标匹配:一种用于评估LLM评判者可靠性的子集选择方法 **来源:** https://arxiv.org/html/2606.15029 Alyssa Unell 斯坦福大学计算机科学系 aunell@stanford\.edu & Natalie Dullerud††footnotemark: 斯坦福大学计算机科学系 ndulleru@stanford\.edu & Naomi Boneh 斯坦福大学计算机科学系 naomicyb@stanford\.edu & Meena Jagadeesan 斯坦福大学计算机科学系 meenaj@seas\.upenn\.edu & Tatsu Hashimoto 斯坦福大学计算机科学系 thashim@stanford\.edu & Nigam Shah 斯坦福大学医学系 nigam@stanford\.edu & Sanmi Koyejo 斯坦福大学计算机科学系 sanmi@stanford\.edu ###### 摘要 LLM评判者(LLM judges)被用于减少评估开放式文本生成时昂贵的人力成本。然而,这些评判者的可靠性在很大程度上取决于它们与人类评分者的一致性——而这一属性本身又依赖昂贵的人工标注。在本工作中,我们开发了一种方法(Metric Match),用于在有限标注下估计LLM评判者基于相关性的可靠性指标。 Metric Match 选择一部分样本进行人工标注,使得该子集在获取到的合成标签层面与总体可靠性指标相匹配。我们通过实验表明,在四种不同的相关性指标和15个数据集上,Metric Match 相对于随机子集选择的胜率为0.838,平均估计误差降低18.7%,标注需求减少32.5%。我们提供了一个成本模型,并重点展示了一个医疗案例研究:在该案例中,与随机选择相比,我们的方法为专家标注节省了1,041.67美元。此外,我们将任务从可靠性估计转移到可靠性分类——判断给定评判者是否超过部署阈值——并在该任务上使用 Metric Match 优于随机选择。所有项目代码已公开111https://github.com/som-shahlab/MetricMatch,我们还提供了一个可安装的软件包以便使用。 ## 1 引言 大型语言模型(LLMs)越来越多地用于文本生成任务,但它们的快速普及已超出了我们大规模评估它们的能力[47 (https://arxiv.org/html/2606.15029#bib.bib17),36 (https://arxiv.org/html/2606.15029#bib.bib25),51 (https://arxiv.org/html/2606.15029#bib.bib18),10 (https://arxiv.org/html/2606.15029#bib.bib24)]。因此,LLM评判者框架[22 (https://arxiv.org/html/2606.15029#bib.bib23)](即由一个LLM评估另一个模型的输出)作为一种可替代人工标注的可扩展方案应运而生。可扩展性优势在医疗保健等专家领域尤为突出[5 (https://arxiv.org/html/2606.15029#bib.bib1)],因为这些领域的人工标注既缓慢又昂贵。近期工作通过人类标注的基准测试[18 (https://arxiv.org/html/2606.15029#bib.bib52)]和无参考评估方法[45 (https://arxiv.org/html/2606.15029#bib.bib22)]探索了这一方向。 要在医疗保健等高危领域[30 (https://arxiv.org/html/2606.15029#bib.bib110)]负责任地部署LLM评判者,就必须评估LLM生成标注相对于人工标签的可靠性。具体来说,这种评估为从业者提供了信号,以判断LLM评判者是否能够可靠地替代昂贵的人工标注者。LLM评判者的可靠性[7 (https://arxiv.org/html/2606.15029#bib.bib67),31 (https://arxiv.org/html/2606.15029#bib.bib79),17 (https://arxiv.org/html/2606.15029#bib.bib77)]通常通过评分者间信度文献中的统计度量[43 (https://arxiv.org/html/2606.15029#bib.bib19),29 (https://arxiv.org/html/2606.15029#bib.bib2)]和标准相关系数[44 (https://arxiv.org/html/2606.15029#bib.bib3),26 (https://arxiv.org/html/2606.15029#bib.bib4)]来衡量。然而,一个关键挑战是:这些指标需要人工标注才能计算目标LLM评判系统的可靠性得分,从而形成了评估瓶颈。事实上,LLM评判者的评估遇到了LLM作为评判者框架最初旨在解决的可扩展性问题:需要在整个数据集上进行人工标注才能精确计算可靠性。 为了缓解这种可扩展性问题,标准方法旨在利用有限的人工标注预算来估计评判者的可靠性,侧重于产生无偏估计量。一种方法是对随机选择的子集进行标注,以估计可靠性指标,从而产生无偏估计[15 (https://arxiv.org/html/2606.15029#bib.bib66)]。随机选择或经典统计抽样允许对指标估计进行直接的有限样本分析。另一种方法是使用另一个LLM评判者生成合成标签,然后校正这些标签引入的系统偏差。偏差通常在一个随机选择的子集上进行估计,而现代方法如预测驱动推断(PPI)[2 (https://arxiv.org/html/2606.15029#bib.bib39)]则将偏差校正与置信区间的构建相结合。 在本文中,我们采取了不同的视角:我们的目标不是获得评判者可靠性的无偏估计量,而是预测评判者可靠性以最小化估计误差。在低标注量情况下,高方差可能使无偏估计在实践中失去信息量,因此最小化总估计误差是更相关的目标。我们发现,对于这个估计任务,跳出无偏估计量的集合是有益的。具体来说,标准方法在随机选择的子集上收集人工标注,而我们则利用了可靠性指标在合成标签上的结构——这种结构反过来决定了应该标注哪些项的子集。 我们的主要贡献是一种评估LLM评判者可靠性的新估计方法(Metric Match),该方法将有限的人工标注与来自其他LLM的合成标签相结合。Metric Match 采用了一种新颖的子集选择方法:我们从一个精心构造的子集上收集人工标注,该子集在LLM评判者得分与合成标签之间的模型间可靠性方面与总体最匹配。这种方法利用模型间指标来指导对感兴趣的人-模型指标的估计子集选择。 我们在多种模型(Claude-3.5-Sonnet[3 (https://arxiv.org/html/2606.15029#bib.bib101)]、GPT-4.1[38 (https://arxiv.org/html/2606.15029#bib.bib103)]、GPT-5[39 (https://arxiv.org/html/2606.15029#bib.bib102)]、Deepseek-R1[23 (https://arxiv.org/html/2606.15029#bib.bib99)]和Gemini-2.5-pro[16 (https://arxiv.org/html/2606.15029#bib.bib100)])以及数据集(HANNA[12 (https://arxiv.org/html/2606.15029#bib.bib7)]、MedVAL[1 (https://arxiv.org/html/2606.15029#bib.bib78)]、SummEval[19 (https://arxiv.org/html/2606.15029#bib.bib5)]和MSLR[49 (https://arxiv.org/html/2606.15029#bib.bib8)])上对Metric Match进行了实证评估。在每个场景中,我们考虑了不同的采样预算大小和不同的相关性指标(ICC[43 (https://arxiv.org/html/2606.15029#bib.bib19)]、Krippendorff’s α[29 (https://arxiv.org/html/2606.15029#bib.bib2)]、Spearman’s ρ 秩相关[44 (https://arxiv.org/html/2606.15029#bib.bib3)]和Kendall’s τ 秩相关[26 (https://arxiv.org/html/2606.15029#bib.bib4)])。 我们的结果如下: 1. **估计误差:** 我们通过实验表明,Metric Match 优于基线方法,如对随机收集的子集进行标注、偏差校正和分层抽样(图2 (https://arxiv.org/html/2606.15029#S4.F2))。与随机选择相比,我们将估计误差平均降低了18.7%。这导致标注需求减少了32.5%(图3 (https://arxiv.org/html/2606.15029#S4.F3))。我们提供了一个成本模型来计算改进估计能力的影响,表明对于给定数据集MedVAL[1 (https://arxiv.org/html/2606.15029#bib.bib78)],可节省高达1,041.67美元的成本。 2. **胜率评估:** 然后我们将Metric Match与实践中事实上的方法——随机选择进行了系统比较。在跨场景和预算平均估计误差的情况下,我们观察到相对于随机选择的平均胜率为0.838。我们还发现,对于每个不同的预算和指标,平均胜率始终超过0.65(表1(a) (https://arxiv.org/html/2606.15029#S4.T1.st1))。我们在每次试验的粒度上进行了类似的分析(表1(b) (https://arxiv.org/html/2606.15029#S4.T1.st2))。 3. **可靠性分类:** 最后,我们转向下游的可靠性分类任务。具体来说,从业者可能仅在估计的可靠性系数超过预先指定的部署阈值时才使用LLM评判者。当我们将任务从可靠性估计转移到可靠性分类时,Metric Match 相对于随机选择的胜率为0.652(表2 (https://arxiv.org/html/2606.15029#S4.T2))。因此,我们的工作向着可扩展的LLM评判者评估迈出了实质性的一步,使从业者能够加速评判者开发并改进早期故障检测,同时与人类偏好保持一致,并在更少的标注下保持可靠性估计的准确性。 ## 2 相关工作 ### 2.1 LLM评估与人工标注 评估大型语言模型的输出是一个长期挑战,尤其是在这些系统被部署到开放式和特定领域的环境中时[47 (https://arxiv.org/html/2606.15029#bib.bib17),36 (https://arxiv.org/html/2606.15029#bib.bib25)]。随着模型成功的标准从传统的多项选择评估转向更复杂、更真实的环境,模型成功的评估变得比当前的词汇方法所能捕捉到的更为微妙[41 (https://arxiv.org/html/2606.15029#bib.bib26),33 (https://arxiv.org/html/2606.15029#bib.bib27),37 (https://arxiv.org/html/2606.15029#bib.bib47)]。人类评估历来在这些情况下被视为黄金标准,因为它对连贯性、事实性和适当性等细微品质敏感,同时也捕捉了我们希望在模型对齐中利用的目标质量概念[51 (https://arxiv.org/html/2606.15029#bib.bib18),40 (https://arxiv.org/html/2606.15029#bib.bib48)]。然而,人工标注成本高昂且难以扩展,尤其是在医学和法律等领域,标注者需要专业知识[7 (https://arxiv.org/html/2606.15029#bib.bib67)]。专家肿瘤学家的标注费用可能高达每小时500美元,而某些任务需要多个小时并存在多种分歧模式,这迅速突显了依赖人工进行LLM输出评估的局限性[48 (https://arxiv.org/html/2606.15029#bib.bib29)]。先前的工作已经考察了标注质量的多个维度,包括标注者间一致性、标注者偏差以及众包标签的可靠性,强调了即使我们拥有无限的人力标注,在人类内部的分歧问题上仍然会出现问题[31 (https://arxiv.org/html/2606.15029#bib.bib79),14 (https://arxiv.org/html/2606.15029#bib.bib28)]。近期工作探索了从业者如何扩展这些指标,以允许较弱的标注者来增强较强标注者的规模[8 (https://arxiv.org/html/2606.15029#bib.bib30),9 (https://arxiv.org/html/2606.15029#bib.bib32),27 (https://arxiv.org/html/2606.15029#bib.bib31)]。 ### 2.2 LLM作为评判者实现可扩展评估 *LLM作为评判者*范式由Gu等人[22 (https://arxiv.org/html/2606.15029#bib.bib23)]推广,该范式使用LLM作为自动评估器,对其他模型的输出进行评分或排序。虽然这种方法提供了高吞吐量,但随后的研究发现了关键的失败模式,包括位置偏差、冗长偏差和自我偏好偏差[22 (https://arxiv.org/html/2606.15029#bib.bib23),31 (https://arxiv.org/html/2606.15029#bib.bib79)]。为了缓解这些问题,近期的基准测试如AlpacaEval[18 (https://arxiv.org/html/2606.15029#bib.bib52)]通过基于回归的去偏差引入了长度控制指标,而JudgeBench[45 (https://arxiv.org/html/2606.15029#bib.bib22)]则侧重于知识密集型领域中的客观正确性,在这些领域中,人类风格偏好可能误导自动评判者。此外,将评判者响应与人类响应的子集进行比较,并关联可靠性指标(如ICC、Krippendorf’s α、Kendall’s τ和Spearman’s ρ),可作为上述评判者偏见和不足的信号[28 (https://arxiv.org/html/2606.15029#bib.bib33),4 (https://arxiv.org/html/2606.15029#bib.bib34),26 (https://arxiv.org/html/2606.15029#bib.bib4),44 (https://arxiv.org/html/2606.15029#bib.bib3)]。LLM作为评判者经常与人类输出进行比较,以决定一个系统是否可以接受作为人类代理,或者是否需要进一步迭代[13 (https://arxiv.org/html/2606.15029#bib.bib37)]。这种方法留下了如何在没有足够人工标注的情况下有效使用评判者输出的问题。 ### 2.3 高效采样与标注 一系列关于偏差校正的工作使用一小部分人工标签来“纠正”自动预测的偏差。现代方法如预测驱动推断(PPI)使用一小部分人工标签来“纠正”自动预测的偏差,为总体参数提供有效的统计保证[2 (https://arxiv.org/html/2606.15029#bib.bib39),20 (https://arxiv.org/html/2606.15029#bib.bib46)]。偏差校正通常在对收集人工标签的数据的随机子集上进行。选择哪些点进行标注本身就是一个方差减少问题,相关的工作通过重要性采样来构建:点不是均匀采样,而是根据其对估计量方差预期贡献来抽取(或重新加权),从而使校正后的估计在固定的标注预算下更准确[11 (https://arxiv.org/html/2606.15029#bib.bib43),52 (https://arxiv.org/html/2606.15029#bib.bib42)]。少数工作(例如,[53 (https://arxiv.org/html/2606.15029#bib.bib44),50 (https://arxiv.org/html/2606.15029#bib.bib45)])探索了如何超越随机选择,而是以主动方式构建这个子集。这些工作在合成标签上构建潜在因子模型以确定模型不确定性,从而指导主动标注选择。我们的方法在动机上类似,因为我们使用合成标签来构建数据点子集,并在其上收集人工标注。然而,这些方法使用模型不确定性估计从分布的不确定区域采样,并学习潜在因子模型的参数。这些偏差校正方法,除了PPI和重要性采样之外,旨在改进估计周围的置信区间,而不是优化点估计本身。 我们的工作为更广泛的采样和标注研究领域做出了贡献。为了最大化有限标注预算的信息量,研究人员参考了主动学习(AL)和最优实验设计的方法论先例[15 (https://arxiv.org/html/2606.15029#bib.bib66),35 (https://arxiv.org/html/2606.15029#bib.bib40),24 (https://arxiv.org/html/2606.15029#bib.bib41)]。主动学习侧重于迭代选择具有最高不确定性或多样性的样本进行标注。
相似文章
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
用LLM评审员增强人工评估:你需要多少人工审核?
本文提出了一种两阶段抽样设计,其中LLM评估用于增强而非替代人工评分,并利用缺失数据文献中的双重稳健估计量,提供了确定人工和LLM评审样本量的指导。
LLM作为评委评估的一致性指标:报告什么以及为什么
本文探讨了当标准为二元时,哪些用于LLM评委验证的一致性统计是冗余的,并提供了一个包含弃权处理在内的正确报告清单。
抛硬币裁判?LLM-as-a-Judge评估的可靠性与偏见
本文研究了LLM-as-a-Judge评估的运行间可靠性,发现平均13.6%的成对偏好会发生翻转,GPT-4o-mini存在显著的首位偏见,并建议采用多试次聚合与位置随机化。