量化评分标准修改对人类与自动评分者一致性影响的统计分析

arXiv cs.CL 2026/05/08 04:00 论文

摘要

本研究分析了评分标准（rubrics）的修改（例如从整体性标准转变为分析性标准）如何影响人类评分者与 AI 自动评分者之间的一致性。研究结果表明，提供示例和减少偏见有助于提高一致性，而更高的复杂性往往会降低一致性。

arXiv:2605.06283v1 公告类型：新文章摘要：自动评分者（Autoraters），也称为大语言模型作为评判者（LLM-as-judges），越来越多地被用于评估和自动化内容审核。然而，目前对于呈现给人类和自动评分者的评分标准修改如何影响其评分一致性的统计分析仍然有限。要求做出整体或**整体性**（holistic）判断的评分标准——例如对文章“质量”进行评级——可能会因为标准的复杂性或主观性而被不一致地解读。相反，评分标准可以要求做出**分析性**（analytic）判断，即将评估标准进行分解——例如将“质量”分解为“流畅性”和“组织性”。虽然可以通过编辑这些评分标准来提高人类和自动评分各自的个体准确性，但这种方法可能导致两种评分之间的分歧，或与相关的整体性判断产生分歧。设计并部署可靠的自动评分者，不仅需要理解人类注释与自动评分者注释之间的关系，还需要理解这种关系如何在 eliciting（引发）整体性或分析性判断时发生变化。结果表明，提供代表性示例和额外上下文、并减少评分标准中位置偏见的评分标准修改，能够提高人类与自动评分者之间的一致性，而较高的评分标准复杂性和保守的聚合方法则倾向于降低一致性。来自自动作文评分和指令遵循评估领域的研究结果表明，从业者应仔细分析特定领域和特定评分标准的性能，以实现更高的人类与自动评分者一致性。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 07:33

# 量化评分标准修改对人类-自动评分员一致性的统计影响

来源: https://arxiv.org/html/2605.06283

Jessica Huynh
卡内基梅隆大学
jhuynh@cs\.cmu\.edu

Alfredo Gomez
卡内基梅隆大学
alfredo3@cs\.cmu\.edu

Athiya Deviyani
卡内基梅隆大学
adeviyan@cs\.cmu\.edu

Renee Shelby
Google Research
reneeshelby@google\.com

Jeffrey P. Bigham
卡内基梅隆大学
jbigham@cmu\.edu

Fernando Diaz
卡内基梅隆大学
diazf@cmu\.edu

###### 摘要

自动评分员（Autoraters），也称为 LLM-as-judges（以大语言模型作为裁判），越来越多地用于评估和自动内容审核。然而，对于呈现给人类和自动评分员的评分标准（Rubric）修改如何影响其评分一致性，目前的统计分析十分有限。要求整体或*整体性（holistic）*判断的评分标准——例如对文章的“质量”进行评级——可能因标准的复杂性或主观性而被不一致地解读。相反，评分标准也可以要求*分析性（analytic）*判断，即将评估标准分解——例如将“质量”分解为“流畅度”和“组织结构”。虽然可以编辑这些评分标准以提高人类和自动评分各自的个体准确性，但这种方法可能导致两者评分之间的分歧，或与相关的整体性判断产生分歧。设计和部署可靠的自动评分员不仅需要理解人类注释与自动评分员注释之间的关系，还需要理解这种关系在引发整体性或分析性判断时是如何变化的。结果表明，提供代表性示例和额外上下文、以及减少评分标准中位置偏差的编辑增加了人类-自动评分员的一致性，而较高的评分标准复杂度和保守的聚合方法倾向于降低一致性。自动作文评分（AES）和指令遵循（IF）评估领域的发现表明，从业者应仔细分析特定于领域和评分标准的性能，以提高人类-自动评分员的一致性。

**量化评分标准修改对人类-自动评分员一致性的统计影响**

Jessica Huynh
卡内基梅隆大学
jhuynh@cs\.cmu\.edu

Alfredo Gomez
卡内基梅隆大学
alfredo3@cs\.cmu\.edu

Athiya Deviyani
卡内基梅隆大学
adeviyan@cs\.cmu\.edu

Renee Shelby
Google Research
reneeshelby@google\.com

Jeffrey P. Bigham
卡内基梅隆大学
jbigham@cmu\.edu

Fernando Diaz
卡内基梅隆大学
diazf@cmu\.edu

## 1 引言

**图 1：** 此图展示了自动作文评分中的实验设置流程。它代表了在全局评分标准（左）和分析性评分标准（右）之间进行的人类-自动评分员一致性 $\tau$ 比较。在全局评分标准中，所有标准在单一的整体判断中同时应用；而在分析性评分标准中，标准被单独评估，产生多个分数。原始评分标准给予人类和自动评分员，而编辑后的评分标准仅给予自动评分员。$\tau_1$、$\tau_2$ 与 $\tau_3$、$\tau_4$ 之间粗体箭头表示可以计算统计显著性的比较。$\Delta\textnormal{rater}$ 代表评分员类型改变而评分标准类型保持不变的比较，而 $\Delta\textnormal{rubric}$ 代表评分标准类型改变而评分员类型保持不变的比较。

由于自动评分员（或 LLM-as-judges）具有可扩展性、成本效益和时间效率，它们已被用作人类注释的替代方案。它们的有效性通常通过与人类注释的一致性来验证。借鉴教育文献，评分标准被定义为具有“连贯的标准集”和“这些标准的绩效水平描述”Brookhart (2013)。这描述了提供给任何评分员（无论是人类还是自动化）的评分指南和指令，在自动评分员文献中也称为提示（prompt）的一部分。理想情况下，人类评分员和自动评分员都应接受等效的评估评分标准，以可靠地准确测量相同的构念。然而，等效性并不 necessitate（必然要求）完全相同的呈现方式。Wu 和 Quinn (2017) 表明，专家和新手人类评分员可能需要不同级别的指令具体性，例如，指定工具并提供具体示例特别能在评分员缺乏任务相关知识时提高准确性。除了在不同类型评分员之间呈现相同内容外，人类和自动评分员对同一类型评分员内部指令呈现的变异也很敏感。对人类而言，这种敏感性包括众包期间的任务解读 (Kairam 和 Heer, 2016) 以及指令具体性，其中增加指令具体性可提高任务准确性 (Wu 和 Quinn, 2017)。对于自动评分员，位置偏差（被评估文本在提示中的位置会影响自动评分评估）和冗长偏差（自动评分员偏好更冗长的文本）只是已知敏感性中的一部分 (Zhenget al., 2023)。自动评分员还对评分标准的变体敏感，例如格式选择 (Sclaret al., 2024) 和示例排序 (Luet al., 2022)。指令呈现的另一个例子涉及将标准分解为多个子标准。先前的工作成功地使用分解来提高 LLM 性能，无论是让自动评分员将评估标准分解为子任务 (Sahaet al., 2024)，还是让人类将复杂问题分解为更简单的子问题供模型处理 (Patelet al., 2022)。

了解评分标准修改是否会产生统计上显著的一致性变化，对于旨在部署自动评分员作为评估工具的从业者来说至关重要。这项工作研究了两个领域中的人类-自动评分员一致性：自动作文评分（AES）和指令遵循（IF）。我们从统计上检查评分标准呈现和更广泛的评分标准修改如何影响主观评估任务中的人类-自动评分员一致性，并通过实证检查，将原本为人类评估者设计的、要求单一高级标准的通用整体性判断分解为更细致的子标准，是否是提高人类-裁判一致性的有效方法。

研究结果表明，当自动评分员接收机器优化的指令而人类接收原始指令集时，针对自动评分员优化的指令往往能提高与人类评分的一致性。相反，给予自动评分员更简单的提示并不能保证与人类评分有更高的一致性。这些结果表明：1) 提供代表性示例及上下文信息的评分标准编辑增加了人类-自动评分员一致性以及自动评分员自身的一致性；2) 较高的标准复杂度和保守的聚合方法倾向于降低人类-自动评分员一致性；3) 减少确认偏见往往能显著增加人类-自动评分员一致性；4) 较高的人类评分员间一致性导致显著更高的人类-自动评分员一致性。来自自动作文评分和指令遵循评估领域的这些发现表明，从业者应仔细分析特定领域的性能并修改评分标准，以实现较高的人类-自动评分员一致性。

## 2 相关工作

### 2.1 语境中的评分标准

扩展第 1 节，评分标准包括标准（即整体评估的组成部分）和标准的描述。分解水平（Decomposition level）描述了标准的呈现方式，指的是提示是*整体性*的（“所有标准同时应用”）还是*分析性*的（“对每个标准分别描述工作”）(Brookhart, 2013)。通用性水平（Generality level）详细说明了标准的描述，指的是提示是*通用*的还是*任务特定*的（即，评估提示[可以\不能]用于其他任务）(Brookhart, 2013)。自动评分员评估提示可以通过这一视角来查看——例如，整体性自动评分员评估提示可能要求单一的整体判断，而分析性提示会将评估分解为需单独评估的标准。本文中使用的提示复杂性（Prompt complexity）指的是评估过程中对评分员施加的认知需求。先前关于任务复杂性和认知需求的研究确定了必须同时考虑的路径（或组件）数量 (Campbell, 1988)、元素交互程度（即组件必须一起处理而非独立处理的程度）(Sweller, 2010) 以及导致沟通失败的歧义 (Campbell, 1988) 作为认知负荷的特征。因此，在我们的工作中，我们考虑了评估标准的数量、分数级别描述的相互关联程度，以及评分员必须在子标准之间解决歧义的程度。

### 2.2 LLM-as-judges

自动评分员（LLM-as-a-judge）范式最近受到了大量关注。几项过去的研究表明，LLM 可以产生与人类专家一致的评估 (Chiang 和 Lee, 2023; Liet al., 2025)。然而，研究也表明自动评分员对提示变异很敏感，不同的指令导致截然不同的性能 (Mizrahiet al., 2024) 和质量变化，需要统计程序来证明替换人类评分员的合理性 (Calderonet al., 2025)。最近的几项工作研究了提示修改如何影响自动评分员性能 (Sclaret al., 2024) 表明，提示格式选择（例如，分隔符、空格）可以显著影响任务准确性，尽管这些效果在不同模型之间的相关性较弱 (Luet al., 2022) 显示，少样本提示中的示例排序对分类任务的性能有重大影响。我们的工作扩展了这一文献，尽可能使用统计程序来测试评分标准修改选择（如分解水平、示例选择和聚合方法）如何影响在即使经过训练的人类评分员也常常不一致的任务中与人类判断的一致性。这项工作还通过实证检查，在没有单一正确答案的领域（与先前工作中使用的分类和多项选择题形成对比），通常被认为能减少认知负荷的更简单评分标准是否真的提高了人类-自动评分员的一致性。

### 2.3 自动作文评分 (AES) 和指令遵循 (IF)

最近的工作探讨了在 AES 中使用自动评分员，采用各种角色，包括“具有英语写作专业知识的虚拟评估者” (Xiaoet al., 2025)、“有帮助的模式遵循助手” (Mansouret al., 2024) 以及“英语作文写作测试评估委员会”或“英语教师” (Leeet al., 2024)。然而，这些角色可能与原始人类评分员不一致；例如，Hamneret al. (2012) 数据集中一部分的评分指南明确指出评分员不应是教师。提供给自动评分员的少样本示例数量也各不相同，Xiaoet al. (2025) 选择了计算嵌入后最近的三个示例，而 Kundu 和 Barbosa (2024) 选择了一篇高分文章和一篇低分文章。虽然大多数研究利用 AES 数据集给出的评分标准，Leeet al. (2024) 自动将原始作文评分标准分解为子标准，并对子标准执行修改后的平均聚合，平均表现优于使用零样本提示的单一分数。然而，Xiaoet al. (2025) 表明，与使用评分标准和少样本示例的 GPT-4 相比，微调 GPT-3.5-turbo 和 Llama3-8B 取得了显著改进。这些先前的工作也可能要求自动评分员为分数提供解释以模拟思维链（CoT），旨在获得更准确的解释和评级。关于分析性评分标准的研究主要集中于跨提示评分 (Chen 和 Li, 2023)。本工作的实验设置遵循先前工作的严谨性，通过研究多个自动评分员、使用给定的评分标准并执行各种评分标准编辑。然而，所检验的假设扩展了先前关于编辑评分标准的发现，并进一步调查了各种作文评分标准中的评分标准组件。

LLM 中指令遵循的研究导致了改进和评估 LLM 的两种主要方法：指令微调和对齐微调。先前的研究发现，较大的模型往往更准确地遵循指令，尽管这种关系并非严格线性 (Ouyanget al., 2022)。Honovichet al. (2023) 提出允许 LLM 仅通过查看任务示例来编写指令，尽管这仍然不如人类编写的指令准确。

## 3 实验设置

我们的假设集中于自动评分员评分标准的标准呈现：(1) *编辑后*的提示将比原始提示提高自动评分员与人类评分的对齐度（人类和自动评分员可能由于信息处理方式的不同需要不同的提示）；(2) *分析性*评分标准将比*整体性*评分标准提高自动评分员与人类评分的对齐度（分析性评分标准中将整体构念分解为离散组件预计能简化评估任务，从而提高自动评分员对齐度）。

### 3.1 实验

这项工作考察了四种不同的分数：整体性提示下的人类评分 ($H_H$) 和分析性提示下的人类评分 ($H_A$)，以及整体性提示下的自动评分员评分 ($LLM_H$) 和分析性提示下的自动评分员评分 ($LLM_A$)。这些分数促进了两种比较：$\Delta Rater$，评估使用相同类型评分标准时的人类-自动评分员一致性；$\Delta Rubric$，在保持评分员类型不变的情况下，调查改变评分标准类型的影响，揭示不同评分标准即使在测量相同标准时如何影响评分。这些比较如图 1 所示。此外，还分析了 $\Delta Rater+Rubric$，即同时改变评分标准类型和评分员类型...

相似文章

C2：基于二元偏好的可扩展评分增强奖励建模

Hugging Face Daily Papers

C2 提出了一种可扩展的评分增强奖励建模框架，该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器，无需昂贵的评分标注，同时在 RM-Bench 上实现了最高 6.5 分的提升。

AI编写的评论帮助人类发现缺陷

OpenAI Blog

# AI编写的评论帮助人类发现缺陷来源：[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many⁠](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous⁠\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works⁠\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo

不完全合作的人-AI交互：模拟与用户研究中人类和AI属性影响的比较

arXiv cs.CL

本研究论文调查了人类个性特征和AI设计特性在不完全合作场景中对人-AI交互的联合影响，采用模拟数据集（2000次模拟）和人类受试者实验（290名参与者）两种方法。研究发现模拟与真实交互之间存在显著差异，其中AI透明度在实际人-AI交互中成为关键因素。

懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

arXiv cs.CL

# 懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度来源：[https://arxiv.org/html/2604.16654](https://arxiv.org/html/2604.16654) Christina Chance [christinachance315@gmail\.com](https://arxiv.org/html/2604.16654v1/mailto:[email protected]) [0000\-0002\-8254\-0670](https://orcid.org/0000-0002-8254-0670) 加州大学洛杉矶分校洛杉矶加利福尼亚州美国 Rebecca Pattichis 独立研究员 Alb

人工智能与人类评判的批判性思维反论证

arXiv cs.CL

本研究探讨在教育情境下，学生针对AI生成内容撰写反论证以培养批判性思维，并发现前沿大语言模型能够以与人类评估者中等一致性的方式评估此类写作。

相似文章

C2：基于二元偏好的可扩展评分增强奖励建模

AI编写的评论帮助人类发现缺陷

不完全合作的人-AI交互：模拟与用户研究中人类和AI属性影响的比较

懂的都懂（但AI不懂）：自动内容审核未能捕捉社群对去污名化用语的多元态度

人工智能与人类评判的批判性思维反论证

提交意见反馈