顺序至关重要:LLaMA的序列微调实现连贯的自动化作文评分
摘要
本文研究了使用与话语结构对齐的课程对LLaMA-3.1-8B进行序列微调用于自动化作文评分,结果表明与独立或随机训练相比,连贯性和性能均有提升。
arXiv:2606.10327v1 公告类型:新
摘要:自动化作文评分(AES)系统必须判断相互依赖的话语元素(例如,开头、立场、主张、证据、结论),但大多数方法将这些元素孤立处理,损害了连贯性和泛化能力。我们研究了使用参数高效的LoRA和4位量化对LLaMA-3.1-8B进行任务感知微调用于AES,并比较了三种训练课程:(i)序列(逐步微调:先开头,再立场,再主张,再证据,再结论),(ii)独立(任务特定模型),和(iii)随机(打乱的多任务)。在PERSUADE~2.0语料库上的实验表明,建模任务依赖性至关重要:序列微调取得了最强的总体结果,包括证据的F1分数65%和结论的87%,相应的准确率分别为63%和85%,超越了独立训练,并且在结论上优于通用LLaMA-70B基线,尽管其容量大得多。随机训练在立场评分上表现更好(F1为57%),但在其他方面一致性较差。这些发现表明:(1)与话语结构对齐的课程设计可以显著改进AES,(2)小型任务优化模型可以与大型语言模型(LLM)竞争,提供可扩展、成本效益高的评估实用路径。我们发布模板和实现细节,以促进再现性和未来在教育NLP中的课程设计研究。
查看缓存全文
缓存时间: 2026/06/10 06:10
# 顺序至关重要:LLaMA 的序贯微调用于连贯的自动作文评分 来源:https://arxiv.org/html/2606.10327 Ali Keramati 加州大学尔湾分校 a\.kera@uci\.edu & Mark Warschauer 加州大学尔湾分校 markw@uci\.edu ###### 摘要 自动作文评分(AES)系统必须评判相互依赖的语篇要素(如引言、立场、论点、论据、结论),然而大多数方法孤立地处理这些要素,损害了连贯性和泛化能力。我们研究了基于 LLaMA-3.1-8B 的任务感知微调用于 AES,采用参数高效的 LoRA 与 4 位量化,并比较了三种训练方案:(i) 序贯(依次在引言、立场、论点、论据、结论上微调),(ii) 独立(任务特定模型),以及 (iii) 随机(打乱的多任务)。在 PERSUADE 2.0 语料上的实验表明,建模任务依赖关系至关重要:序贯微调取得了整体最强结果,包括 65% 的 F1 分数(论据)和 87%(结论),以及相应的 63% 和 85% 准确率,超越独立训练,并在结论上胜过通用 LLaMA-70B 基线,尽管后者容量大得多。随机训练在立场评分上有所提升(57% F1),但在其他方面一致性较差。这些发现表明:(1) 与语篇结构对齐的课程设计能够显著改进 AES,以及 (2) 小型、任务优化的模型可以与规模大得多的大语言模型(LLM)竞争,为可扩展、成本效益高的评估提供了实用路径。我们公开发布模板和实现细节,以促进复现和未来在教育 NLP 中课程设计的研究。 ## 1 引言 自动作文评分(AES)已成为人工智能与教育领域中日益重要的研究方向(Bai et al\., 2022 (https://arxiv.org/html/2606.10327#bib.bib8); Conijn et al\., 2023 (https://arxiv.org/html/2606.10327#bib.bib9); Mizumoto and Eguchi, 2023 (https://arxiv.org/html/2606.10327#bib.bib10))。随着对可扩展高效反馈系统需求的增长,基于 AI 的 AES 模型为以一致且及时的方式评估学生作文提供了有前景的解决方案(Mizumoto and Eguchi, 2023 (https://arxiv.org/html/2606.10327#bib.bib10); Misgna et al\., 2025 (https://arxiv.org/html/2606.10327#bib.bib11); Ormerod et al\., 2021 (https://arxiv.org/html/2606.10327#bib.bib12))。在准确评估作文不同组成部分时,现有 AES 模型难以确保跨多样写作风格和主题的公平、可靠和泛化的性能(Yang et al\., 2024 (https://arxiv.org/html/2606.10327#bib.bib1))。在传统评分中,人类通过考虑不同部分之间的关系来整体评估作文。然而,大多数 AES 模型难以有效捕捉作文中的这些任务依赖关系,例如学生立场的清晰度如何影响其论点的强度或论据的有效性(Misgna et al\., 2025 (https://arxiv.org/html/2606.10327#bib.bib11); Yamaura et al\., 2023 (https://arxiv.org/html/2606.10327#bib.bib13); Fink et al\., 2024 (https://arxiv.org/html/2606.10327#bib.bib14))。 AES 的一个关键问题是作文由多个相互依赖的部分组成,例如引言、主体和结论。独立评分每个部分可能导致不一致,因为写作的某些方面天然依赖于先前部分。例如,薄弱的引言可能直接影响主体中论点的组织方式,使得 AI 系统难以孤立地公平评估这些部分。尽管存在这些问题,许多现有 AES 模型将作文组成部分分开处理,而未考虑从一个部分学习如何可能提高其他部分的评分准确性(Tate et al\., 2024 (https://arxiv.org/html/2606.10327#bib.bib15))。这一局限显著削弱了 AES 模型在向学生提供有意义反馈方面的有效性,因为它们未能反映作文的逻辑流畅性和连贯性(Misgna et al\., 2025 (https://arxiv.org/html/2606.10327#bib.bib11); Singla et al\., 2021 (https://arxiv.org/html/2606.10327#bib.bib16))。 另一个挑战是 AES 模型的泛化能力。许多微调模型倾向于过拟合训练数据,进而在评分未见过的作文时无法保持相同的准确性(Yang et al\., 2024 (https://arxiv.org/html/2606.10327#bib.bib1))。这引发了对这些模型在实际应用中可靠性的担忧,因为学生作文在结构、内容和写作水平上各不相同(Demszky et al\., 2024 (https://arxiv.org/html/2606.10327#bib.bib2))。为应对这些问题,有必要探索替代的微调方法,以提高 AES 模型的泛化能力和鲁棒性(Uto and Okano, 2020 (https://arxiv.org/html/2606.10327#bib.bib17); Ridley et al\., 2020 (https://arxiv.org/html/2606.10327#bib.bib18); Do et al\., 2025 (https://arxiv.org/html/2606.10327#bib.bib19); Yang et al\., 2020 (https://arxiv.org/html/2606.10327#bib.bib20))。 为应对这些挑战,本研究探讨了四种不同的基于 LLaMA 模型的 AES 微调策略。目的是确定哪种微调方法最能捕捉作文组成部分的层级性质,并在保持模型泛化能力的同时提高评分准确性。提出的微调方法如下:1. 序贯微调,2. 独立微调,3. 随机微调(打乱的多任务),4. 基线比较(LLaMA 70B)。通过比较这些方法,我们旨在理解任务依赖关系在 AES 微调中是否起关键作用,以及序贯微调是否比独立或混合方法更能提升模型性能。 我们的方法相对于传统 AES 方法具有若干关键优势。我们解决了连贯性、泛化性、可扩展性和基准测试方面的关键局限。首先,我们的方法融入了任务依赖建模,认识到作文不同部分之间的自然关系。与以往孤立评估写作组成部分的 AES 模型不同,我们的序贯微调策略通过利用这些依赖关系增强了评分连贯性。其次,我们通过系统比较序贯和混合微调策略来提升泛化能力。这种比较使我们能够确定最有效的缓解过拟合的方法,并确保模型在未见过的作文上保持强劲性能。此外,我们的方法强调可扩展性和效率,通过针对特定写作任务微调较小的 LLaMA 模型。这一策略使我们能够在使用显著更少计算资源的同时实现高性能,使 AES 系统在实际应用中更加实用和可及。最后,我们将微调后的模型与 LLaMA 70B 进行基准比较,以评估小型、高效微调的模型是否能匹配甚至超越大规模模型的性能。考虑到在教育环境中部署大型模型的高计算成本,我们的发现为小型模型在 AES 中的可行性提供了宝贵见解。 本研究对 AES 和 AI 辅助教育领域做出了多项重要贡献。首先,我们通过系统比较序贯、独立和混合微调方法,对微调策略进行了全面分析。这一分析为不同训练方法如何影响 AES 任务上的模型性能提供了宝贵见解。此外,通过探索任务依赖关系,我们研究了以特定顺序学习不同作文组成部分如何影响整体评分准确性。这一研究为 AES 中的层级学习提供了新视角,强调了结构化微调的重要性。此外,我们通过评估不同微调技术是否影响模型在新作文提示上表现良好的能力,评估了模型泛化能力。解决当前 AES 研究中的这一关键局限,确保了我们的发现有助于开发更鲁棒、适应性更强的评分模型。最后,我们针对大规模 LLaMA 70B 模型进行了比较研究,以确定更小、微调后的模型能否达到竞争性或更优的性能。这一评估强调了在保持高准确性的同时降低计算需求、实现经济高效的 AES 系统的潜力,使 AI 驱动的作文评分在实际教育应用中更加可及。 AES 的有效性不仅取决于 AI 模型的质量,还取决于它们如何被微调以捕捉写作的复杂结构。在本文中,我们旨在通过探索不同的微调策略并评估其对模型准确性、任务依赖性和泛化能力的影响,来提高 AES 性能。我们的发现将为构建更可靠、可扩展且有效的 AES 系统提供宝贵见解,从而增强 AI 辅助教育。在以下章节中,我们回顾相关工作,分析数据集,并介绍详细方法,包括模型设计和数学公式。我们的评估通过定量分析、与 SOTA 基线的比较以及可视化来检查性能。最后,我们讨论关键发现和未来研究方向,以增强可扩展且可靠的 AES 系统。 ## 2 相关工作 AES 在近期研究中已被广泛探索,尤其随着用于文本评估的大语言模型(LLM)的兴起。近期研究考察了 AES 的各个方面,包括基于 LLM 评分的可靠性和有效性、微调在提升性能中的作用,以及结构化提示策略的影响。本节回顾与我们研究相关的关键研究,强调其贡献以及本研究旨在填补的空白。 最相关的研究之一来自 Pack et al\. (2024 (https://arxiv.org/html/2606.10327#bib.bib4)),该研究调查了 LLM 在英语学习者(ELL)写作背景下 AES 的有效性和可靠性。作者评估了多个 LLM,包括 Google 的 PaLM 2、Anthropic 的 Claude 2 以及 OpenAI 的 GPT-3.5 和 GPT-4,以评估其在作文评估中的有效性。他们的发现突出了评分可靠性的变异性,其中 GPT-4 表现出最高的一致性。本研究的一个关键教训是,LLM 在评分准确性上随时间表现出波动,这引发了对过拟合和泛化能力的担忧——这正是我们研究旨在通过微调策略解决的核心问题。此外,本研究强调了将 AI 生成的分数与人类评分对齐的重要性,我们通过将微调后的 LLaMA 模型与 LLaMA 70B 作为基线进行基准比较,将这一概念融入评估。关于提示工程的讨论进一步强调,评分准确性可能受到任务框架方式的影响,这与我们探索结构化微调是否增强模型鲁棒性和一致性的目标一致。 类似地,Mansour et al\. (2024 (https://arxiv.org/html/2606.10327#bib.bib3)) 的研究考察了 LLM 在 AES 中的有效性,评估了 ChatGPT 和 LLaMA 模型在整体评分和基于特质评分中的表现。他们的发现突出了若干挑战,包括提示敏感性、评分不一致性以及通用 LLM 与专用 AES 模型之间的性能差距。这项研究与我们的研究相关,因为我们旨在确定不同的微调策略是否能缓解这些不一致性并提高模型可靠性。Mansour 等人还强调,LLM 在区分高质量和低质量作文方面存在困难。这进一步强化了结构化微调以增强模型捕捉任务依赖关系和提高评分精度的必要性。此外,他们将基于 LLM 的 AES 模型与最先进(SOTA)AES 模型进行比较,与我们的目的——评估策略性微调的小型 LLaMA 模型是否能匹配或超越更大 LLaMA 70B 模型的性能和效率——相一致。 另一项密切相关的研究由 Stahl et al\. (2024 (https://arxiv.org/html/2606.10327#bib.bib5)) 完成,该研究探索了使用 LLM 提示策略进行联合作文评分和反馈生成。他们的研究调查了零样本和少样本学习,以确定 LLM 如何有效评估作文同时提供有意义的反馈。其中一个关键发现是,将 AES 与反馈生成相结合可增强评分性能,尽管评分质量与反馈有效性之间的关系仍然较弱。虽然他们的重点是通过结构化提示优化 LLM 响应,我们的研究则通过考察结构化微调方法是否能进一步提升 AES 性能来扩展这项工作。他们关于 LLM 受益于结构化指导的研究支持了我们的假设,即微调可以提高评分一致性和泛化能力。此外,他们的工作突出了评分准确性与其提供的反馈之间的权衡,这与我们开发可扩展、公平且可解释的 AES 系统的更广泛目标相一致。 论文 "How well can LLMs Grade Essays in Arabic?" 由 Ghazawi 和 Simpson (2025 (https://arxiv.org/html/2606.10327#bib.bib7)) 完成,与我们的研究相关,因为它探索了最先进 LLM 在阿拉伯语作文 AES 中的有效性。作者评估了多个 LLM,包括 ChatGPT、LLaMA、Aya、Jais 和 ACEGPT,使用了零样本、少样本和微调方法。他们的发现显示了 LLM 与更小、更专门的 AES 模型在处理阿拉伯语语言复杂性和分词挑战方面的性能差距。该研究随后展示了提示工程和指令遵守能力如何影响 AES 性能,表明精心构建的提示可以增强模型准确性。这项工作与我们的研究高度相关,因为我们研究了不同微调策略对 AES 性能的影响,特别是在任务依赖的作文组成部分(引言、立场、论点、论据和结论)评分中。虽然 Ghazawi 和 Simpson 考察了 LLM 在阿拉伯语 AES 上的表现,我们的研究将这一分析扩展到英语 AES,并聚焦于结构化微调方法,如序贯、独立和混合微调。他们关于 LLM 在自动评分中局限性的发现进一步强化了我们的动机,即评估微调是否能提高评分一致性并缓解模型不稳定性。此外,他们将 LLM 与更小、领域特定的模型(如基于 BERT 的系统)进行比较,与我们旨在将微调后的 LLaMA 模型与更强基线(LLaMA 70B)进行基准比较的目标相一致,以确定更小、任务优化的模型是否能超越大型通用 LLM。通过在不同语言背景下应对类似挑战,本文为微调、提示工程和模型专业化在 AES 中的作用提供了宝贵见解,并支持我们增强 AI 驱动的作文评分系统可靠性和可扩展性的努力。 总体而言,这些研究提供了关于基于 LLM 的 AES 中挑战和机遇的关键信息。它们突出了模型可靠性、提示敏感性以及纯上下文学习方法局限性等关键问题。我们的研究基于这些发现,通过探索三种不同的微调策略——独立、序贯和混合——来系统地评估其对 AES 性能的影响。
相似文章
基于LLM的自动化评分中可学习的评估技能:通过迭代优化构建评分标准
本文提出为LLM学习评估技能,以自动化评分任务的评分标准构建,达到与专家编写的评分标准相当的性能,且无需人工编写的示例。
Elmes*:长尾教育场景下大型语言模型细粒度评估标准的自动构建
本文介绍了Elmes+,一个面向长尾教育场景下LLMs细粒度评估标准构建的自动化框架,并提出了涵盖11个学科330个场景的Edu-330基准。该框架使用多智能体引擎和自演化模块来协同优化评估标准与测试数据,揭示了顶级LLMs在多维教育能力上的差异。
基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用
本文使用基于扰动的归因分析方法,分析了不同微调策略(全量微调、LoRA、量化LoRA)和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中,而较大的模型会形成特定的解释策略,但性能收益在超过7B参数后出现递减。
教育中的LLM评判:基于课程大纲的评分流水线
本文提出了一种基于课程大纲的LLM评判流水线,用于高风险考试备考中的自动化试题评分。该流水线利用教学大纲材料及评分指南,提升一致性与透明度。初步评估显示,其评分结果与人工导师相当。
Review Arcade:论LLM评审的人类对齐与可游戏性
本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。