教育中的LLM评判:基于课程大纲的评分流水线
摘要
本文提出了一种基于课程大纲的LLM评判流水线,用于高风险考试备考中的自动化试题评分。该流水线利用教学大纲材料及评分指南,提升一致性与透明度。初步评估显示,其评分结果与人工导师相当。
arXiv:2606.17507v1 公告类型:新
摘要:生成式人工智能和大语言模型 (LLM) 越来越多地应用于试题生成和自动评估。然而,在高风险考试备考中部署 LLM 需要的不仅是提示工程,还需要软件流水线系统地将模型输出与教育主管部门授权的课程材料及评分指南相对齐。本文提出了一种基于课程大纲、可配置的 LLM评判流水线,用于试题级评分,该流水线与一家行业合作伙伴共同开发,以支持大学入学考试备考。该流水线识别试题的相关主题、子主题和认知需求,并汇集可验证且授权的上下文信息以支持 LLM 评判。课程意图通过具体的教学大纲材料来实现,包括规定的动词与成果、表现等级描述词、术语表定义以及评分指南原则。采用分阶段的 LLM 工作流,首先生成试题特定的评分标准,捕捉结构化的表现期望,然后推导并评估用于为学生作答分配分数的评分准则。这种设计提高了一致性、透明性,并与官方评分实践保持一致。初步评估表明,所提出的 LLM评判流水线能提供与人工导师相当的评分结果,同时其给出的理由更可追溯至授权的课程材料和评分标准。该流水线已集成到一个在线学习平台中,早期部署数据提供了关于操作使用和手动覆盖的初步见解。
查看缓存全文
缓存时间: 2026/06/17 05:37
# LLM-as-Judge 在教育中的应用:基于课程标准的评分管道 来源:https://arxiv.org/html/2606.17507 Chen WangJacky JiangPhil YangQian FuMohan DhallWenjie ZhangLiming Zhu ###### 摘要 生成式 AI 和大语言模型 (LLMs) 越来越多地应用于题目生成与自动评估。然而,在备考高风险考试中部署 LLM 不仅需要提示工程,还需要设计软件管道,使模型输出系统地与教育当局发布的授权课程材料和评分指南保持一致。本文提出了一条基于课程标准的、可配置的 LLM-as-Judge 评分管道,用于题目级评分,该管道与行业伙伴共同开发,旨在支持大学入学备考。该管道识别题目所涉及的主题、子主题和认知要求,并汇总可验证、已授权的上下文信息,以支持 LLM 的判断。课程意图通过具体的教学大纲材料(包括规定的动词与成果、表现等级描述符、术语表定义以及评分指南原则)得以具体化。采用分阶段 LLM 工作流:首先生成针对题目的评分标准,捕捉结构化的表现期望;随后推导并评估用于为学生作答分配分数的评分标准。这一设计提升了与官方评分实践的一致性和透明度。初步评估表明,所提出的 LLM-as-Judge 管道能够提供与人类教师相当的评分结果,同时其理由阐述更可追溯到授权课程材料和评分标准。该管道已集成到一个在线学习平台,早期部署数据提供了关于运行使用情况和人工干预的初步见解。 ## I 引言 大语言模型 (LLMs) 已经对学习表现展现出积极影响 [25] (https://arxiv.org/html/2606.17507#bib.bib22),并在全球教育领域得到日益广泛的应用。近期的行业证据表明,AI 在教育中的使用量激增,86% 的教育组织已开始使用生成式 AI [18] (https://arxiv.org/html/2606.17507#bib.bib3), [8] (https://arxiv.org/html/2606.17507#bib.bib2)。在澳大利亚,多个州的教育部门已部署大规模教学聊天机器人,可供数以千计的公立学校教师和学生使用 <sup>111</sup>EduChat from NSW Department of Education (https://education.nsw.gov.au/teaching-and-learning/education-for-a-changing-world/nsweduchat) <sup>222</sup>EdChat from South Australian Department for Education (https://www.education.sa.gov.au/parents-and-families/curriculum-and-learning/ai/edchat)。在私营领域,传统辅导中心也开始探索基于 LLM 的工具,以提供写作反馈,并通过在线学习平台扩展辅导服务,尤其是在高风险考试逐步转向数字化交付的背景下 <sup>333</sup>OC Selective exam preparation platform (https://ocselective.com.au) <sup>444</sup>Studitory: HSC preparation platform (https://studitory.com)。在这种迅速采纳的过程中,评估处于教育的核心位置,因为它决定了学生学习如何被测量、解读和认可 [5] (https://arxiv.org/html/2606.17507#bib.bib12)。同时,评估仍然是教育系统中最耗费人力、最主观且操作上最具挑战性的环节之一,尤其是在大规模情境下。即便提供了详细的评分标准,研究仍然一再发现评分者之间和评分者自身存在显著差异:不同的评分者,有时甚至是同一评分者在不同时间,会对相同的学生作业给出不同的分数 [17] (https://arxiv.org/html/2606.17507#bib.bib9)。导致评分者自身差异的因素之一是认知偏差:人类评分者可能会受到自身先前对表现的判断影响,这种现象通常被称为“光环效应” <sup>555</sup>https://en.wikipedia.org/wiki/Halo_effect。在高风险考试中,如全国性评估 [3] (https://arxiv.org/html/2606.17507#bib.bib8)、州级精英学校入学考试 <sup>666</sup>https://education.nsw.gov.au/schooling/parents-and-carers/choosing-a-school-setting/selective-high-schools/placement-test 和大学入学考试,成百上千名学生可能落在同一分数段内。在此类情境下,区分能力存在细微差异的学生,同时在备考过程中提供有意义、可操作的反馈,变得愈加困难。 LLM 的最新进展为重新思考评估工作流提供了新的机遇。LLM 在解读复杂评分标准、生成结构化反馈以及推理大量文本数据方面展现出强大能力 [24] (https://arxiv.org/html/2606.17507#bib.bib14)。这些能力激发了将生成式 AI 应用于自动判断、反馈生成和自适应评估的日益增多的兴趣 [25] (https://arxiv.org/html/2606.17507#bib.bib22), [9] (https://arxiv.org/html/2606.17507#bib.bib24)。传统的评估工作流基于由人类教师解读并应用的授权评分标准。通过基本的提示自动化引入 LLM 可能破坏这些特性,因为模型输出可能偏离授权标准、引入不一致性,或缺乏对官方课程来源的可追溯性 [13] (https://arxiv.org/html/2606.17507#bib.bib15), [26] (https://arxiv.org/html/2606.17507#bib.bib16)。当前基于 LLM 的方法的另一个局限性在于,除了 LLM 自身内嵌的知识外,它们捕捉“隐性人类知识”的能力有限。经验丰富的教师在应用正式评分标准之前,会依赖于隐性判断,例如论证的连贯性、学科术语的密度以及推理的整体质量。这种隐性知识会随着课程更新、学生群体特征以及学科规范而不断演变 [21] (https://arxiv.org/html/2606.17507#bib.bib17)。 本文提出了一种架构上可操作的 LLM-as-Judge 管道:一个基于课程标准的、可验证的 LLM 系统,专为备考情境下的高风险教育评估而设计。该管道与行业伙伴共同开发,系统地将授权教学大纲文档、表现等级描述符、术语表定义以及评分指南原则作为结构化上下文纳入 LLM 推理过程。该管道已部署在一个实时的在线学习平台,使我们能够观察运行信号(如人工干预率)和面对对抗性输入的鲁棒性。 本文做出以下贡献: - • 我们设计并实现了一条基于课程标准的、可配置的 LLM-as-Judge 管道,将授权评估材料作为结构化上下文嵌入; - • 我们将隐性人类判断视为可信教育评估中一个关键但被低估的组成部分,并分析了其对系统设计的影响; - • 我们进行了初步评估,表明所提出的管道能够取得与人类教师相当的成果,同时提供明确可追溯到课程意图的反馈。 本文的其余部分组织如下。在第二节 (https://arxiv.org/html/2606.17507#S2) 讨论相关工作后,第三节 (https://arxiv.org/html/2606.17507#S3) 呈现了基于课程标准的评分管道的整体架构。第四至六节 (https://arxiv.org/html/2606.17507#S4)–(https://arxiv.org/html/2606.17507#S6) 描述了该管道在在线学习平台中的设计、实现与集成。第八节 (https://arxiv.org/html/2606.17507#S8) 报告了实际使用中的初步评估结果。第十节 (https://arxiv.org/html/2606.17507#S10) 讨论未来工作,第十一节 (https://arxiv.org/html/2606.17507#S11) 总结全文。 ## II 相关工作 ### II-A LLM 支持的题目生成与评估 自动评估有着悠久的研究历史,特别是在作文评分和简短回答评分方面。早期研究将机器生成的分数与人类评分者进行对比,重点关注可靠性、有效性以及与专家判断的一致性 [16] (https://arxiv.org/html/2606.17507#bib.bib27), [23] (https://arxiv.org/html/2606.17507#bib.bib28)。这些基础工作确立了自动评分系统的评估指标和框架。在此基础上,LLM 的出现使得更灵活、更强大的评估方法成为可能。近期研究探索了基于评分标准和多维度的评估框架,展示了将 LLM 生成的分数与类似人类的评估标准对齐的结构化方法 [10] (https://arxiv.org/html/2606.17507#bib.bib29)。与此同时,大规模基准研究探索了将 LLM 作为开放环境中的通用评估器,表明它们能够在多轮对话评估等任务上与人类判断实现高度一致 [32] (https://arxiv.org/html/2606.17507#bib.bib30)。为了进一步提升对齐度,其他研究提出了自适应评分标准范式,以针对单个题目定制评估标准 [7] (https://arxiv.org/html/2606.17507#bib.bib34)。然而,这些研究主要基于通用基准环境,而非基于课程标准的的教育评估。 在教育情境中,LLM 已被应用于题目设计、自动评分和反馈生成等评估任务,涵盖公共和私立领域 [6] (https://arxiv.org/html/2606.17507#bib.bib4)。先前的研究表明,LLM 能够解读评分标准、生成结构化反馈,并以与人类评分者间信度相当的稳定性对简短回答或作文回答进行评分 [19] (https://arxiv.org/html/2606.17507#bib.bib13), [15] (https://arxiv.org/html/2606.17507#bib.bib5), [13] (https://arxiv.org/html/2606.17507#bib.bib15), [17] (https://arxiv.org/html/2606.17507#bib.bib9)。此外,来自全国规模毕业考试的实证证据表明,当基于官方的课程评分标准被具体化操作时,基于 LLM 的评估可以达到与人类评分者相当的表现,同时也凸显了偏差、评分标准实施以及在高风险环境中需要人类监督等实际问题 [11] (https://arxiv.org/html/2606.17507#bib.bib31)。然而,不同学科的表现存在差异 [25] (https://arxiv.org/html/2606.17507#bib.bib22),这反映了训练数据中的偏差,并导致不一致的结果。在实践中,教师开发的智能体系统(例如 Cogniti <sup>777</sup>https://cognitoedu.org/)越来越多地用于自动化评估相关任务,以减轻工作量并提高可扩展性。 一个紧密相关的研究领域是自动题目生成。由教育者人工策划题目越来越难以持续,特别是在频繁的教学大纲变更需要不断更新的情况下 [5] (https://arxiv.org/html/2606.17507#bib.bib12)。为此,现有研究探索了 LLM 如何生成与不同认知水平对齐的题目,通常使用 Bloom 认知分类法作为指导框架 [12] (https://arxiv.org/html/2606.17507#bib.bib10)。更近期的研究考察了 AI 生成的题目与既定认知框架之间的对齐程度,强调了生成方法在维持教学有效性方面的潜力和局限性 [29] (https://arxiv.org/html/2606.17507#bib.bib11)。迭代框架和结构化 LLM 管道通过使用自我批评和修正循环来改进生成题目的质量 [31] (https://arxiv.org/html/2606.17507#bib.bib32),并在教育实践中为多项选择题提供了可扩展的生成与评估方案 [20] (https://arxiv.org/html/2606.17507#bib.bib33)。尽管取得了这些进展,现有文献很大程度上将评估和题目生成视为以模型为中心、基于提示的任务。课程对齐、授权评分标准以及特定管辖区域的评估实践通常被假定或通过临时审查来强制执行,对可验证、基于课程标准的评估提供的支持有限。 ### II-B 检索增强 LLM 管道 检索增强生成 (RAG) 管道将语言模型与外部知识源相结合,以提高事实准确性、可控性和透明度 [28] (https://arxiv.org/html/2606.17507#bib.bib18), [30] (https://arxiv.org/html/2606.17507#bib.bib20)。从架构角度看,这些管道通常被分解为检索、推理、生成和验证等模块化阶段,从而实现关注点分离。近期研究开始明确在教育情境下考察 RAG 管道,关注如何通过工程化手段将检索、编排和验证支持教学与评估工作流,而非通用的知识密集型任务 [14] (https://arxiv.org/html/2606.17507#bib.bib19)。我们的设计侧重于在教育评估领域系统性地应用 RAG 管道,将其锚定在授权课程材料和评估规范上。我们将 RAG 嵌入到一个由课程引导的评分管道中,该管道明确将教学大纲意图、评分原则和评估约束编码为结构化组件。 ### II-C 人机协同与隐性知识管理 评估在本质上是一个社会技术过程,依赖于专业判断和通过经验积累的隐性知识。关于隐性知识的经典工作强调,专长的重要方面无法被完全表述或简化为显式规则 [21] (https://arxiv.org/html/2606.17507#bib.bib17)。在教育评估中,经验丰富的教师在应用正式评分标准之前或同时,可能会应用隐式标准。实证研究表明,即使提供了详细的评分标准,评分者之间和评分者自身仍存在显著差异,这既凸显了人类判断在评估中的重要性,也揭示了其主观性 [17] (https://arxiv.org/html/2606.17507#bib.bib9)。AI 系统中的人机协同方法 [27] (https://arxiv.org/html/2606.17507#bib.bib1) 常被提出来保持问责性,但它们也可能引入额外的主观性来源 [1] (https://arxiv.org/html/2606.17507#bib.bib21)。相比之下,基于 AI 的评估组件提供了提高一致性的潜力,能够在大型群体中统一应用评分标准。在实践中,人类常常被定位为运行时的监督者或最终仲裁者,而非设计时编码专业知识贡献者。因此,现有的人机协同评估系统很少提供机制来将隐性判断、评分原则或课程意图作为一等公民来捕捉。这一差距促使了我们的设计:通过授权文档、历史实践和基于原则的约束嵌入人类专长,同时在运行时保持可扩展性和一致性。 ## III 评分管道概述 图 1 (https://arxiv.org/html/2606.17507#S3.F1) 说明了本文提出的基于课程标准的评分管道。该管道将 LLM 辅助评分锚定到新南威尔士州教育部 <sup>888</sup>https://education.nsw.gov.au/ 发布的授权材料,包括 HSC(高中毕业证书)教学大纲 <sup>999</sup>Australia’s main secondary school qualification in New So
相似文章
面向LLM-as-a-Judge的动态评估准则生成与优化
本文提出了一种无需训练的方法,可以在无需人工标注的情况下自动生成细粒度的评估准则用于LLM-as-a-Judge,并进一步介绍了一种迭代微调策略,使准则生成器的性能超过更大的专有模型。
基于LLM的自动化评分中可学习的评估技能:通过迭代优化构建评分标准
本文提出为LLM学习评估技能,以自动化评分任务的评分标准构建,达到与专家编写的评分标准相当的性能,且无需人工编写的示例。
RankJudge:一个多轮LLM-as-a-Judge合成基准生成器
RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。
评判电路
本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。
Elmes*:长尾教育场景下大型语言模型细粒度评估标准的自动构建
本文介绍了Elmes+,一个面向长尾教育场景下LLMs细粒度评估标准构建的自动化框架,并提出了涵盖11个学科330个场景的Edu-330基准。该框架使用多智能体引擎和自演化模块来协同优化评估标准与测试数据,揭示了顶级LLMs在多维教育能力上的差异。