用LLM评审员增强人工评估:你需要多少人工审核?
摘要
本文提出了一种两阶段抽样设计,其中LLM评估用于增强而非替代人工评分,并利用缺失数据文献中的双重稳健估计量,提供了确定人工和LLM评审样本量的指导。
arXiv:2605.16354v1 公告类型:新
摘要:大型语言模型(LLM)越来越多地被用作AI系统的自动评估器,包括在高风险应用中。在此角色中,LLM用于生成关于模型输出质量、适当性甚至安全性的判断。这种方法受到实际约束的推动。专家人工评分成本高昂且难以扩展,而LLM评分可以快速且低成本地生成。然而,当前部署LLM评估器的方法往往是临时性的,通常仅限于报告人工与LLM评审员之间的一致性指标,以此作为替代人工评分的理由,且缺乏研究设计的正式基础。本文(1)将LLM评审员的角色从替代性转变为辅助性,(2)将LLM作为评审员的范式表述为通过两阶段抽样设计增强人工评估,其中在第一阶段对所有观测值测量LLM评估结果,在第二阶段对子样本部分观测人工评分。我们提出使用缺失数据文献中的双重稳健估计量,该估计量利用了对预测模型的稳健性特性,因为缺失模型是通过设计已知的。利用该估计量的渐近方差,我们提出了如何确定人工和LLM评分的样本量以达到目标功效水平。我们还表明,通过为LLM评分可预测性不高的评估类型分配更多人工评分,可以高效设计研究。据我们所知,关于在验证基准时应保留多少人工监督的指导非常少。
查看缓存全文
缓存时间: 2026/05/19 06:42
# 用LLM评估师增强人工评估:你需要多少人工评审? 来源:https://arxiv.org/html/2605.16354 Jane Paik Kim 斯坦福大学精神病学与行为科学系 斯坦福, CA 94304 [email protected] ###### 摘要 大型语言模型(LLMs)越来越多地被用作人工智能系统的自动化评估者,包括在高风险应用中。在此角色中,LLM被用于生成关于模型输出的质量、适当性甚至安全性的判断。这种方法的动机源于实际限制。专家人工评分成本高昂且难以规模化,而LLM评分可以低成本快速生成。然而,当前部署LLM评估者的方法具有临时性,通常仅通过报告人工与LLM评估者之间的一致性指标来证明替代人工评分的合理性,缺乏正式的研究设计基础。本文 (1) 将LLM评估者的角色从替代性转变为辅助性,(2) 将“LLM作为评估者”范式形式化为一个通过两阶段抽样设计增强人工评估的过程:第一阶段对所有观测进行LLM评估,第二阶段对子样本进行部分人工评分观测。我们提出使用来自缺失数据文献的双重稳健估计量,该估计量利用对预测模型的稳健性性质,因为缺失模型是设计已知的。利用该估计量的渐近方差,我们提出了如何确定人工和LLM评分的样本量以达到目标检验效能水平。我们还表明,可以通过在LLM评分可预测性不高的评估类型中分配更多人工评分来高效设计研究。据我们所知,目前关于在验证基准时应保留多少人工监督的指导非常少。 ## 1 引言 LLM越来越多地被评估用于专门任务,如临床总结、诊断解读和面向患者的沟通。(Bean et al. (2026 (https://arxiv.org/html/2605.16354#bib.bib1));Croxford et al. (2025 (https://arxiv.org/html/2605.16354#bib.bib4));Kumar et al. (2026 (https://arxiv.org/html/2605.16354#bib.bib8)))。评估LLM生成输出的充分性需要领域专业知识,因为充分性取决于准确性、情境敏感的解释和适当性。然而,专家评审成本高且获取速度慢。为应对这一瓶颈,研究人员采用了“LLM作为评估者”的方法,即LLM输出由其他LLM而非人类专家进行评估(Gu et al. (2024 (https://arxiv.org/html/2605.16354#bib.bib12)))。这些方法以可忽略的成本实现规模化,但引入了新的问题。 一个关键问题是,这些方法在临时的验证之后完全依赖LLM评分。在实践中,这种替代通过基于一致性的验证来证明其合理性。一种常见方法是,在方便样本的基准实例上收集专家评分,并与LLM生成的评分进行一致性指标比较。如果一致性达到选定的阈值,则LLM被视为有效的替代品,后续评估仅依赖LLM评分(Li et al. (2024 (https://arxiv.org/html/2605.16354#bib.bib9)))。类似的模式出现在自动化评估管道中,其中使用专家标记的测试集来验证训练好的评分模型,通过与人工评分者的一致性来展示其性能,之后该模型被部署而不纳入专家标签。在这两种情况下,人工监督的作用仅仅是评估LLM评估者的性能。一旦验证完成,人工评分即被丢弃不再使用。这种策略对于低风险的基准测试可能足够,但在临床质量监测、心理健康安全审计和监管评估中,未被发现的错误会带来严重后果。 这种以一致性作为替代人工评审主要依据的临时方法存在若干局限性。高一致性并不能证明LLM评估者与人类评估的是相同的构念(Chehbouni et al. (2025 (https://arxiv.org/html/2605.16354#bib.bib2)))。其次,一致性通常在不同项目类型、内容领域或评估维度上存在异质性。Kumar et al. (2026 (https://arxiv.org/html/2605.16354#bib.bib8))通过显示在共情沟通的21个评估维度上,专家与LLM的一致性(加权kappa)范围从0.17到0.86,证明了这一点。第三,验证样本量通常没有合理依据。 #### 解决严谨性差距。 本文将LLM评估的主导框架从替代转向增强。我们提出使用LLM生成的评分作为辅助数据,以补充精心设计的人工评估子样本。我们建议将“LLM作为评估者”范式构建为一个两阶段抽样问题(Zhao and Lipsitz (1992 (https://arxiv.org/html/2605.16354#bib.bib18))),其中低成本评分可以针对整个样本进行测量,而高成本评分仅针对整个样本的一个子集进行测量。在此设计下,由于成本原因,昂贵的人工评分部分缺失。为处理不完整数据,可以使用辅助数据预测并填补缺失值,或者用响应概率的倒数对观测数据进行加权。在典型的缺失数据问题中,这些方法的有效性取决于预测模型或响应概率模型的正确设定。双重稳健(DR)估计量是两者的结合,要求至少有一个模型正确才能保证推断的有效性(Robins and Rotnitzky (1994 (https://arxiv.org/html/2605.16354#bib.bib11)))。然而,在我们的案例中,响应概率由设计决定且已知,因此基于DR估计量的推断有效性得以保证。 #### 我们的贡献。 该框架的一个关键直接后果是允许为“LLM作为评估者”评估设计具有正式设计组件的前瞻性方案。DR估计量渐近方差的形式使我们能够确定所需的人工和LLM样本数量。这种重新框架将重点从事后比较转向前瞻性研究设计,并提供了样本量公式和分配指南。它使得评估研究能够以与临床试验相同的推断严谨性进行设计。据我们所知,目前关于在验证基准时应保留多少人工监督的指导非常少。 我们的主要贡献是:(i) 将“LLM作为评估者”范式构建为两阶段设计,将人类专家评分视为主要推断感兴趣的量,LLM生成评分视为成本低且易于扩展的辅助测量,并应用缺失数据方法;(ii) 根据LLM评分对人工评分的可预测性,提供LLM和人工评分的样本量计算;(iii) 提供一种高效分配策略来设计“LLM作为评估者”研究。 ## 2 方法 ### 2.1 两阶段抽样 我们的框架首先假设人工评分是某个明确定义构念的金标准,并且是主要的推断兴趣点,而LLM评分作为辅助数据可用。我们提出一个两阶段抽样设计,其中第一阶段,LLM评分对所有评估单元可用。第二阶段,人工评分仅在第一阶段的一个子集中可用。LLM评分的作用是作为辅助数据,补充不完整的人工评估集。这与广泛采用的方法形成对比,后者使用人工评分来证明LLM评分的合理性,但在主要分析中丢弃了人工评分。在两阶段设计中,缺失数据方法用于处理不完整的人工评分(图1 (https://arxiv.org/html/2605.16354#S2.F1))。两阶段抽样一个显著特征是缺失机制已知并由设计决定。  ### 2.2 估计量 为了激发这个估计量,让我们从一些简单的直觉开始。处理缺失数据的一种方法是使用LLM评分作为预测变量构建人工评分的预测模型,并用预测值填补缺失数据。这被称为预测方法(Kim and Shao (2021 (https://arxiv.org/html/2605.16354#bib.bib7))),其有效性取决于预测模型的正确设定。处理缺失数据的另一种方法是仅使用观测数据,但用观测或响应概率的倒数对观测值进行加权。这种方法称为逆概率加权或倾向性评分方法,最早由Horvitz and Thompson (1952 (https://arxiv.org/html/2605.16354#bib.bib13))提出,其有效性取决于响应模型的正确设定。预测模型和响应模型是辅助模型,如果没有缺失数据则不需要它们。倾向性评分方法已知效率较低(Hahn (1998 (https://arxiv.org/html/2605.16354#bib.bib5));Heckman et al. (1997 (https://arxiv.org/html/2605.16354#bib.bib6))),但可以通过构建减去一个无偏项的估计方程来使其有效,该无偏项使得最终的估计函数与辅助模型估计函数正交(Kim and Shao (2021 (https://arxiv.org/html/2605.16354#bib.bib7)))。减去的项涉及结果的预测值。我们称最终的估计方法为双重稳健方法。 双重稳健估计量是两种估计量的加权平均,但其有效性取决于预测模型或响应概率模型的正确性。如前所述,人工评分的不完整性是设计的结果,因此观测或响应概率已知且将始终正确设定。也就是说,即使预测模型不正确,DR估计量也能保证专家人工评分总体参数估计值的有效性。 令 \(N\) 为需要评估的项总数。令 \(\delta_i = 1\) 如果观察到人工响应,否则为0。令 \(Y_i\) 为人工评分,\(X_i\) 为 \(Y_i\) 的预测变量(包括LLM评分),\(\pi_i = P(\delta_i = 1 | X_i)\) 为抽样概率。令 \(\sum_{i=1}^N \delta_i = n\)。LLM评分对所有 \(N\) 个项均可观测,人工评分仅对 \(n\) 个评审项可观测。响应概率 \(\pi_i\) 由研究者控制。 令 \(U(\theta; X, Y)\) 为任意估计函数。一个简单的例子是当 \(U(\theta; X_i, Y_i) = Y_i - \theta\)。 令 \[ W(\theta) = \sum_{i=1}^N \left[ \frac{\delta_i}{\pi_i} U(\theta; X_i, Y_i) \right] - \sum_{i=1}^N \left( \frac{\delta_i}{\pi_i} - 1 \right) E\left[ U(\theta; X_i, Y_i) \middle| X_i \right] \tag{1} \] 解 \(W(\theta) = 0\) 得到DR估计量。基础总体参数 \(\theta\) 通过双重稳健估计量估计(Robins and Rotnitzky (1994 (https://arxiv.org/html/2605.16354#bib.bib11));Kim and Shao (2021 (https://arxiv.org/html/2605.16354#bib.bib7)))。当我们用LLM评分替代人工评分时,我们设定 \(E(Y_i | X_i) = X_i\)。方程(1)显示,当 \(\delta = 0\) 时,LLM评分将替代人工评分。当 \(\delta = 1\) 时,使用人工评分,但通过人工与LLM评分的加权残差进行调整。 ### 2.3 双重稳健估计量的方差 双重稳健估计量的方差如(2)所示,取决于两个不确定来源。方差的第一项代表假设所有 \(N\) 个值均来自人工评分的方差。第二项是使用LLM评分替代人工评分的惩罚,取决于两个量:残差误差(衡量LLM预测人工评分的效果)和响应或观测概率 \(\pi_i\)。 DR估计量的方差由下式给出: \[ \begin{aligned} V\left[ W(\theta) \right] &= V\left[ \frac{1}{n} \sum_{i=1}^n U(\theta; X_i, Y_i) \right] \\ &\quad + E\left[ \frac{1}{n^2} \sum_{i=1}^n \left( \frac{1}{\pi_i} - 1 \right) \left\{ U(\theta; X_i, Y_i) - E[U(\theta; X_i, Y_i) \mid X_i] \right\}^2 \right] \tag{2} \end{aligned} \] 这个方差公式将成为样本量计算的基础。 ## 3 主要结果 ### 3.1 样本量计算 让我们从通常的样本量计算完成之处开始,假设所有评估单元均可获得人工评分(Cohen (2013 (https://arxiv.org/html/2605.16354#bib.bib3)))。令该样本量为 \(n^*\)。假定我们需要 \(n^*\) 个人工评分样本以达到所需的检验效能或预先指定的精度水平。考虑估计 \(Y\) 均值的简单情况,且 \(Y\) 的方差为 \(\sigma^2\)。那么样本均值的目标方差为 \(\sigma^2 / n^*\)。 在实践中,获取目标样本量 \(n^*\) 的人工评分可能不可行。我们的目标是找到一组组合:人工样本量 \(n \leq n^*\),LLM样本量 \(N \geq n^*\),以及响应概率 \(\pi_i\),使得目标方差相同为 \(\sigma^2 / n^*\)。有时,由于可行性或给定预算,人工样本量可能受到限制。在这种情况下,给定所需的 \(n^*\) 和 \(n\),我们可以求出 \(N\)。为了使用样本量公式,我们需要关于条件方差的外部信息: \[ E\left[ \left( U(\theta; X_i, Y_i) - E\{U(\theta; X_i, Y_i) | X_i\} \right)^2 \middle| X_i \right]. \] 我们利用关系式 \[ \frac{\sigma_e^2}{\sigma^2} = 1 - \rho^2 \] 其中 \[ \sigma_e^2 = E\left[ \left( U(\theta; X_i, Y_i) - E[U(\theta; X_i, Y_i) | X_i] \right)^2 \middle| X_i \right], \quad \sigma^2 = E\left[ \left( U(\theta; X_i, Y_i) - E\{U(\theta; X_i, Y_i)\} \right)^2 \right], \] 且 \[ \rho^2 = \operatorname{corr}\left( U(\theta; X_i, Y_i), \hat{E}[U(\theta; X_i, Y_i) | X_i] \right)^2. \] 条件方差与人工评分和LLM评分之间的相关性有关。我们用 \(R^2\) 表示相关性的估计值 \(\rho^2\)。 对于 \(U(\theta; X_i, Y_i) = Y_i - \theta\) 且 \(\pi_i = \pi\) (对所有 \(i\)),方差方程(2)简化为 \[ \frac{\sigma^2}{n^*} \approx \frac{1}{N} \left[ \sigma^2 + \frac{1 - \pi}{\pi} \sigma_e^2 \right]. \]
相似文章
Review Arcade:论LLM评审的人类对齐与可游戏性
本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
面向LLM-as-a-Judge的动态评估准则生成与优化
本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。