基于LLM的自动化评分中可学习的评估技能:通过迭代优化构建评分标准

arXiv cs.CL 论文

摘要

本文提出为LLM学习评估技能,以自动化评分任务的评分标准构建,达到与专家编写的评分标准相当的性能,且无需人工编写的示例。

arXiv:2605.29274v1 公告类型:新 摘要:基于LLM的自动化评分方法接近人类水平,但扩展到新任务仍受限于上游阶段(如评分标准构建)的逐项人工配置。人类专家通过长期实践中形成的评估启发式方法绕过这一瓶颈。我们探究LLM能否直接从评分经验中学习类似的启发式方法,并将其形式化为评估技能的概念:与项目无关的自然语言程序性知识,引导LLM完成评分工作流的特定阶段。以评分标准构建作为首次实例化,我们提出一个迭代框架,将技能分解为固定支架和可学习的与项目无关的规则,通过LLM驱动的评分错误诊断和验证门控选择来优化规则。该框架无需专家编写的评分标准。在所有十个ASAP-SAS项目上,优化后的技能显著提升了基于LLM的评分,并且经常超越数据集提供的专家评分标准。跨项目迁移实验进一步揭示,学习到的技能同时捕捉了可泛化的和项目特定的模式。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:17

# 面向LLM自动评分的可学习评估技能:基于迭代优化的评分标准构建

来源:https://arxiv.org/html/2605.29274

\conference

\[orcid=0009-0004-6611-0752, \]

\[orcid=0009-0009-1717-8511, \]

\[orcid=0000-0002-7816-7658, \]

\[orcid=0000-0003-4519-1931, [email protected], \]\fnmark\[1\]

\[orcid=0000-0002-9170-2424, [email protected], \]\fnmark\[1\]

\fntext

\[1\]通讯作者.

Xin Xia AI4STEM教育中心,佐治亚大学,雅典,GA,美国
Xuansheng Wu
Xiaoming Zhai
Ninghao Liu 香港理工大学,香港,中国

###### 摘要

基于LLM的自动评分方法已接近人类水平,但扩展到新任务时仍受限于每个试题的前端阶段(如评分标准构建)需要人工配置这一瓶颈。人类专家通过长期实践中积累的评估启发式方法绕过了这一瓶颈。我们探究LLM是否能够直接从评分经验中学习类似的启发式方法,并将此形式化为**评估技能**的概念:一种独立于试题的自然语言程序性知识,可引导LLM完成评分工作流程的特定阶段。聚焦于评分标准构建作为首个实例,我们提出一个迭代框架,将技能分解为固定脚手架和可学习的试题无关规则,通过LLM驱动的评分错误诊断和验证门控选择来优化规则。该框架无需专家编写的评分标准。在所有十个ASAP-SAS试题上,优化后的技能显著提升了基于LLM的评分性能,并且经常超越数据集提供的专家评分标准。跨试题迁移实验进一步表明,学习到的技能既捕捉了可泛化的模式,也捕捉了试题特定的模式。

###### 关键词:

自动评分\sep评分标准构建\sepLLM自我改进\sep评估技能\sep提示优化

## 1 引言

大型语言模型(LLM)在许多基准任务上能够对开放性学生作答进行评分,其一致性与人类评分者接近\[1 (https://arxiv.org/html/2605.29274#bib.bib1),2 (https://arxiv.org/html/2605.29274#bib.bib2)\]。然而,这些系统在新评估试题上的可扩展性不佳。对于每个新试题,人类专家仍需配置多个前端步骤,包括任务解读、评分标准设计和证据标准\[3 (https://arxiv.org/html/2605.29274#bib.bib3)\]。这种逐试题的设置,而非评分模型本身,是大规模部署的主要障碍。人类专家遵循相同的工作流程,但他们很少从头开始。他们依赖先前的经验和结构化知识(如评分标准和学习进展)来解读学生作答并在任务之间迁移评分标准。这减少了评分新试题所需的工作量。

受此启发,我们探究LLM是否能获取并重用类似的知识用于自动评估。我们将此知识定义为**评估技能**:可重用的自然语言程序性知识,引导LLM完成评分工作流程的特定阶段。示例包括决定如何构建评分标准、如何在作答中识别证据、以及如何在评分后生成反馈。我们以自然语言表示这些技能,使其保持可解释、可检查和可重用,而无需重新训练模型。

在众多评估技能中,本文聚焦于**评分标准构建**作为试点案例。评分标准定义了评估试题的评分标准和分数边界,其质量直接影响所有下游评分决策\[4 (https://arxiv.org/html/2605.29274#bib.bib4)\]。然而,大多数现有评分标准主要面向人类评分者设计。它们往往依赖定性表达,如“部分正确”或“展示了基本理解”,这些表达假设了人类的常识推理和灵活判断。LLM在解释这些描述时不够一致,且在使用相同评分标准时常常产生系统性的评分错误\[5 (https://arxiv.org/html/2605.29274#bib.bib5)\]。我们在所有十个ASAP-SAS试题上的实验清楚地显示了这一不匹配:在四个试题上,使用专家编写的LLM评分标准实际上降低了评分性能(相对于完全不提供评分标准)。同时,将面向人类的评分标准适配给LLM需要大量人工工作且不可扩展\[6 (https://arxiv.org/html/2605.29274#bib.bib6)\]。对于完全新的任务,可能根本没有可用的评分标准。这些限制使得自动评分标准构建技能既必要又具有实际重要性。

为解决此问题,我们提出一个迭代优化框架,直接从评分实践中学习评分标准构建技能,无需任何专家编写的评分标准作为输入。我们将技能分解为:(1) 跨试题共享的固定脚手架\(s_0\);(2) 一组可学习的试题无关规则\(\Delta\)。脚手架提供了评分标准构建的基本程序,而\(\Delta\)捕捉从评分错误中学到的优化。评分标准是试题特定的,但生成它的技能可跨试题重用。这允许优化在策略层面而非单一评分标准上操作。在每次迭代中,当前技能为目标试题生成一个评分标准,对一批学生作答进行评分,并将预测与人类标签比较。一个诊断器LLM分析由此产生的错误并提出更新的\(\Delta\)。这个循环将模型分数与人类分数之间的差异转化为监督信号,使框架能够从人类分数中引导出评分标准构建技能。

我们的主要贡献如下:

1. 1.我们引入了**评估技能**的概念,这是一种可学习的自然语言程序性知识,引导LLM完成评分工作流程的特定阶段。这种形式化减少了当前自动评分系统所依赖的逐试题人工配置。
2. 2.我们将此概念实例化为评分标准构建,并提出一个迭代框架,仅从评分实践中学习评分标准构建技能,无需专家编写的评分标准。
3. 3.我们在ASAP-SAS数据集上评估该框架,结果显示优化后的技能在大多数试题上提升了基于LLM的评分性能,经常超过专家提供的评分标准。进一步分析表明,学习到的技能表现出部分跨试题迁移,表明它们同时捕捉了可泛化的和试题特定的评分模式。

## 2 相关工作

#### 基于LLM的自动评分.

近期工作探索使用LLM支持完整的评分流程,包括评分标准设计、评分和评分后审查\[7 (https://arxiv.org/html/2605.29274#bib.bib7)\]。在该流程的各阶段中,评分标准质量已被证明对评分可靠性尤为关键\[8 (https://arxiv.org/html/2605.29274#bib.bib8)\]。Tang等人\[9 (https://arxiv.org/html/2605.29274#bib.bib9)\]表明,在物理考试中,细粒度、基于检查表的评分标准比整体性评分标准能带来更高的LLM-人类一致性,突显了评分标准设计对LLM评分者的重要性。沿着这一方向,Chu等人\[10 (https://arxiv.org/html/2605.29274#bib.bib10)\]通过对评分错误的自我反思优化评分指南,并在后续工作\[11 (https://arxiv.org/html/2605.29274#bib.bib11)\]中通过混淆矩阵分解误分类模式并对主导错误模式进行针对性修复来进一步优化评分标准。Wei等人\[12 (https://arxiv.org/html/2605.29274#bib.bib12)\]使用试题特定的评分标准作为开放性问题回答中强化学习的可验证奖励信号。我们的工作与这些方法的不同之处在于优化目标。我们不是为特定试题优化评分标准或指南,而是优化生成它们的技能,使技能本身保持试题无关。

#### 自我进化LLM.

我们的优化过程中,LLM从自身的评分错误中迭代学习,这与自我进化LLM日益增长的工作相关。Reflexion\[13 (https://arxiv.org/html/2605.29274#bib.bib13)\]使智能体能够通过语言自我反思从失败中学习,将反思存储在情景记忆中并在后续试验中重放。ExpeL\[14 (https://arxiv.org/html/2605.29274#bib.bib14)\]从累积的智能体经验中提取可重用的自然语言洞察,并在推理时检索相关洞察。Wang等人\[15 (https://arxiv.org/html/2605.29274#bib.bib15)\]采用类似的存储-召回方法,但从智能体轨迹中诱导出程序化技能。GEPA\[16 (https://arxiv.org/html/2605.29274#bib.bib16)\]和Feedback Descent\[17 (https://arxiv.org/html/2605.29274#bib.bib17)\]采用不同路线,直接优化随后应用于任务的提示或文本制品。在这些方法中,学习的产物直接应用或在推理时检索。而我们的优化目标是一种技能,给定一个试题,它生成任务特定的评分标准,然后指导下游评分。

参见说明图1:迭代技能优化框架概览。系统的输入包括有人类评分的学生作答、一个评估试题以及一个人类编写的初始技能\(s_0\)。在每次迭代中,当前最佳技能生成一个评分标准(步骤1),该评分标准用于对训练批次进行评分(步骤2)。预测分数与人类分数比较以产生错误统计(步骤3),诊断器识别系统性的错误模式并提出更新的候选技能(步骤4)。验证门控(步骤5)仅在候选技能在验证集上提升QWK时才接受它;否则保留当前最佳技能。过程在连续三次拒绝或所有训练批次用完时通过早停终止。

## 3 方法

### 3.1 问题形式化

我们考虑自动评分任务,目标是为给定评估试题\(q\)下的学生作答\(x\)分配一个分数\(\hat{y}\)。每个试题有一个离散分数范围\(\{0,1,\ldots,K\}\)和一组有人类评分的示例\(\mathcal{D}=\{(x_i,y_i)\}_{i=1}^m\),其中\(y_i\)表示作答\(x_i\)的人类分配分数。对于每个评估试题\(q\),评分通常由评分标准\(R\)指导,该标准定义了\(q\)的评分标准以及这些标准如何映射到分数。给定评分标准\(R\),一个LLM评分者通过对照评分标准的标准检查作答来分配分数,写作\(\hat{y}_i=\mathrm{LLM}_{\mathrm{score}}(R,q,x_i)\)。

在本文中,我们研究更现实的场景:对于一个**新试题**\(q\),无法假设存在有效的面向LLM的评分标准\(R\)。为了在该场景下实现评分,我们引入**评估技能**\(s\),这是一种自然语言指令,告诉LLM*如何为新试题构建评分标准*,而不是直接指定任何特定的评分标准。给定试题\(q\),技能\(s\)引导LLM生成合适的评分标准\(R\),写作\(R=\mathrm{LLM}_{\mathrm{gen}}(s,q)\),然后用于评分。

我们通过人类分数与在技能生成评分标准下产生的LLM预测分数之间的一致性程度来衡量技能的有效性。正式地,给定技能\(s\),作答\(x_i\)的预测分数为\(\hat{y}_i^{(s)}=\mathrm{LLM}_{\mathrm{score}}(\mathrm{LLM}_{\mathrm{gen}}(s,q),q,x_i)\)。我们使用二次加权卡帕(QWK)来衡量一致性,这是一个用于有序评分一致性的标准指标。优化目标则是找到使验证集\(\mathcal{D}_{\mathrm{val}}\)上QWK最大化的技能\(s^*\):

\[
s^* = \arg\max_{s} \mathrm{QWK}(\{\hat{y}_i^{(s)}\},\{y_i\}), \qquad (x_i,y_i)\in\mathcal{D}_{\mathrm{val}}.
\]

上述目标定义了优化准则,但没有指明技能中哪些部分允许在优化过程中改变。如果允许优化器重写整个技能,更新可能会覆盖编码人类先验知识(如评估设计原则)的初始指导,而不仅仅是添加可重用的优化。因此,我们将技能**分解**为两个组成部分:\(s = s_0 \oplus \Delta\)。这里,\(s_0\)是一个跨所有试题共享的人类编写的脚手架,而\(\Delta\)是通过优化获取的、扩展\(s_0\)的评分标准构建规则的学习增强。\(s_0\)的形式是灵活的:较弱的脚手架为\(\Delta\)留下更多自由空间,而较强的脚手架编码更详细的工作流程或特定领域框架(如学习进展)。

### 3.2 迭代技能优化

基于上述分解,且\(s_0\)固定设计,搜索\(s^*\)相当于寻找有效的\(\Delta\)。由于\(\Delta\)是开放式的自然语言优化而非可微参数,我们迭代地优化它,使用评分错误作为监督信号。其逻辑是:预测分数与人类分数之间的不一致揭示了生成的评分标准未能引导好评分的地方,而这些失败为如何修改\(\Delta\)提供了证据。

为了支持这种错误驱动的优化过程,数据集\(\mathcal{D}\)被划分为:用于提出技能更新的训练集\(\mathcal{D}_{\text{train}}\),用于选择技能更新的验证集\(\mathcal{D}_{\text{val}}\),以及用于最终评估的保留测试集\(\mathcal{D}_{\text{test}}\)。\(\mathcal{D}_{\text{train}}\)进一步划分为不重叠的批次\(\{B_1,B_2,\ldots,B_T\}\)。每次迭代使用不同的批次以揭示不同的错误模式。基于批次的训练还能减少对单个作答的过拟合,并鼓励生成通用规则。

在迭代过程中,我们维护迄今为止看到的最佳\(\Delta\),记为\(\Delta_{\text{best}}\),以及相应的最佳技能\(s_{\text{best}} = s_0 \oplus \Delta_{\text{best}}\)。优化开始时\(\Delta_{\text{best}} = \emptyset\),因此初始最佳技能就是\(s_{\text{best}} = s_0\)。我们首先在\(\mathcal{D}_{\text{val}}\)上评估此初始技能以建立参考QWK。在每次迭代\(t\)时,系统执行以下步骤(如图1 (https://arxiv.org/html/2605.29274#S2.F1)所示)。

#### 步骤1: 评分标准生成。

使用当前最佳技能\(s_{\text{best}} = s_0 \oplus \Delta_{\text{best}}\)为试题\(q\)生成一个评分标准:

\[
R_t = \text{LLM}_{\text{gen}}(s_{\text{best}}, q). \tag{1}
\]

#### 步骤2: 批次评分。

使用生成的评分标准\(R_t\)对当前训练批次\(B_t\)中的所有作答进行评分:

\[
\hat{y}_i = \text{LLM}_{\text{score}}(R_t, q, x_i), \quad \forall x_i \in B_t. \tag{2}
\]

对于每个作答,LLM评分者还生成一个简短的推理\(j_i\)解释其决策。这些推理对于下游诊断至关重要,因为它们使诊断器能够区分评分错误是源于评分标准还是评分者使用的方式。

#### 步骤3: 评估。

将预测分数与人类分数比较以生成错误统计。

相似文章

面向LLM-as-a-Judge的动态评估准则生成与优化

arXiv cs.CL

本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。

ARES:可扩展LLM强化学习的自动评估标准合成

arXiv cs.CL

ARES提出了一种框架,能够从预训练文档中自动构建基于评估标准的强化学习数据,生成问答对和加权评估标准,从而为开放式的LLM回答提供实例级别的奖励监督,在多维开放式任务上优于现有方法。