LaTA:一种即插即用、符合 FERPA 标准的本地 LLM 自动评分系统,适用于高阶 STEM 课程

arXiv cs.AI 论文

摘要

本文介绍了 LaTA,这是一个开源、符合 FERPA 标准的本地 LLM 自动评分系统,专为高阶 STEM 课程设计,可在本地硬件上运行。论文报告了在俄勒冈州立大学的成功部署,显示学生成绩有所提高,且评分准确率极高。

arXiv:2605.05410v1 公告类型:新论文 摘要:大型语言模型(LLM)自动评分系统有望减轻高阶 STEM 课程的评分负担,但迄今为止的大多数部署都将学生作业发送至第三方 API,这违反了《家庭教育权利和隐私法》(FERPA),使机构面临数据风险,同时需要对作业进行大量修改。我们提出了 $\textbf{LaTA}\ (\textit{LaTeX Teaching Assistant})$,这是一个即插即用、开源的自动评分系统,完全在商品化本地硬件上运行,并采用许多工程和物理课程已广泛采用的原生 LaTeX 工作流程。LaTA 实现了一个四阶段流水线(摄入、分段、评分、报告),使用本地托管的开放权重思维链 LLM 评分器(gpt-oss:120b),将学生作业与教员编写的参考解答进行对比,并应用带有单项二进制评分的 YAML 评分标准。我们在 2026 年冬季学期于俄勒冈州立大学的 ME 373(机械工程方法)课程中部署了 LaTA,在一台 Mac Studio 上为约 200 名学生批改每周作业,每次作业边际成本为 \$0,每次提交的墙钟时间为 1--3 分钟,使得重新批改修正后的作业成为可能,并大幅扩展了助教办公时间的服务范围。经教员确认的评分错误率在整个学期内保持在每个评分标准条目的 $0.02\%$--$0.04\%$ 左右。与同一教员之前传统评分的同期学生相比,LaTA 评分组在期中考试上高出约 $11\%$,在期末考试上高出 $8\%$,并且在所有陈述的学习目标上自我评估的信心都有显著提升($N = 159$ 份调查回复,$\Delta \geq +1.49$ Likert 点,每次比较的 $p < 10^{-27}$)。我们在 AGPLv3 许可证下发布代码。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:16

# LaTA:一种即插即用、符合 FERPA 规范的本地 LLM 自动评分器,适用于高阶 STEM 课程作业

来源:https://arxiv.org/html/2605.05410

Jesse A. Rodríguez
机械、工业与制造工程学院
俄勒冈州立大学
美国俄勒冈州科瓦利斯市,邮编 97331
[email protected]

###### 摘要

大型语言模型(LLM)评分器有望减轻高阶 STEM 课程的评分负担,但迄今为止的大多数部署方案都将学生作业发送至第三方 API,这违反了《家庭教育权利和隐私法》(FERPA),使机构面临数据风险,同时需要大幅修改作业形式。我们提出了 **LaTA**(LaTeX Teaching Assistant,LaTeX 教学助手),这是一种即插即用的开源自动评分器,完全运行在普通的本地硬件上,并假设采用许多工程和物理课程已经接受的 LaTeX 原生工作流。LaTA 实现了一个四阶段流水线(摄入、分段、评分、报告),使用本地托管的开源权重思维链(chain-of-thought)LLM 评分器(gpt-oss:120b),将学生作业与教师编写的参考解决方案进行比较,并应用带有二元逐项评分的 YAML 评分标准。我们在 2026 年冬季学期于俄勒冈州立大学的 ME 373(机械工程方法)课程中部署了 LaTA,在一台 Mac Studio 上对约 200 名学生的每周作业进行评分,每份作业的边际成本为 0 美元,每份提交的墙钟时间为 1–3 分钟,从而支持对更正后作业重新评分,并极大地扩展了助教办公时间的提供。经过教师确认的评分错误率在整个学期内保持在每条评分标准细目的约 0.02%–0.04%。与同一教师之前传统评分的对照组相比,LaTA 评分的 cohort 在期中考试中考高了约 11%,在期末考试中考高了约 8%,并在所有陈述的学习目标上报告了自我评估信心的显著增长(N=159 份调查回复,每次比较中 Δ≥+1.49 李克特点,p<10⁻²⁷)。我们在 AGPLv3 许可下发布代码。

*关键词*:自动评分 · 大型语言模型 · 本地推理 · FERPA · LaTeX 工作流 · 工程教育

## 1 引言

在高阶工程课程中,对手写、多部分推导过程进行评分是一项劳动密集型工作,反馈给学生的速度慢,且不同评分者之间的一致性较差。在一个典型的 200 名学生注册、包含四个问题的每周家庭作业和两次考试的班级中,一个学期通常在反馈到达学生之前就会消耗数百个助教的初评小时;文献中最快的反馈循环仍然以天而非小时为单位,且多名助教之间的评分标准漂移是被公认的一致性威胁 [14, 23, 7]。

大型语言模型的发展速度足以合理地自动化符号推导问题的初评任务,最近的一系列工作探讨了将 LLM 作为 STEM 评分器和辅导工具 [27, 19, 20, 2, 18, 30]。然而,这些工作中的大多数都是针对云托管的商业 API 进行的,而在美国公立大学中,云评分的自动评分器很难与 FERPA 和机构数据驻留政策相协调,除非有协商好的合同例外条款 [8, 11, 13]。实际结果是,许多本可从 LLM 评分中受益的教师无法部署它,除非他们要么匿名化数据,要么承担其无法承担的合规风险。

本文提出了一个刻意狭窄的问题:**一位教师能否仅凭普通的本地硬件且无云访问权限,构建并部署一个足够好的基于 LLM 的自动评分器,以取代 200 名学生的高阶数值方法课程中人类助教的初评工作,以及这样做会发生什么?** 我们的回答是肯定的,描述了该系统——名为 **LaTA**(LaTeX-native Automated Teaching Assistant,LaTeX 原生自动教学助手),并报告了 2026 年冬季学期在俄勒冈州立大学 ME 373(机械工程方法)课程中全学期部署的证据。

LaTA 围绕四个承诺构建。首先,**一切都在单台本地机器上运行**:学生作业不会离开大学网络,合规故事是“我们拥有硬件”而不是“我们协商了数据处理协议”。其次,**带有 Pydantic 验证的类型化数据对象**贯穿流水线的每个阶段 [9],因此模型与系统其余部分之间的边界是由模式强制执行的,而不是通过文本解析。第三,**可以确定性完成的结构决策都采用确定性方式完成**:提交分段首先是基于正则表达式,LLM 作为后备;评分是对每个评分标准项目进行二元评分;LaTeX 编译由 pdflatex 处理,仅在编译实际失败时才采用 LLM 辅助的修复路径。第四,**学生申诉是系统的一等特性**:每个评分决策都会生成双通道工件(面向助教的直接审计推理以及面向学生的苏格拉底式、保留答案的提示),且更正传递工作流直接构建在配置界面中。

本文的贡献如下:

-   一个完整的、开源的基于 LaTeX 的 STEM 课程作业的本地 LLM 自动评分器参考实现,包括流水线、Pydantic 模式、提示注入防御、LaTeX 自愈机制以及与 Gradescope 集成的重新评分工作流(§3)。
-   在单门高阶课程中向 200 名学生部署八个家庭作业的全学期、全替换部署的详细操作记录,包括每周工作流、硬件概况和重新评分请求审计(§4)。
-   对该部署的三项证据流的项目评估研究;操作数据、匿名学生调查(N=159),以及与同一教师之前传统评分对照组之间的 cohort 考试比较,明确披露复合干预混淆因素和单年研究的方法学局限性(§5–6)。
-   对证据的解读,区分**自动评分器**这一商品与其启用的**工作流**,并为考虑类似部署的教师提供一组泛化包络建议(§7)。

本文的其余部分组织如下。§2 将 LaTA 置于基于 LLM 的 STEM 评估、本地/FERPA 感知 AI 工具以及作为教学基质的 LaTeX 的相关工作背景下。§3 描述了四阶段流水线及其类型化数据模型。§4 记录了 ME 373 中 2026 年冬季学期的部署。§5–6 报告了三项证据流。§7–8 解读结果并列举研究设计无法告诉我们什么。§9 结尾。

## 2 背景和相关工作

我们将 LaTA 置于五条先前工作的脉络中:基于 LLM 的 STEM 自由响应问题评估(§2.1);人在回路评分标准支架和思维链提示评分(§2.2);高等教育中的本地和 FERPA 感知 AI(§2.3);作为工程课程作业教学基质的 LaTeX(§2.4);以及回顾性-前置调查方法(§2.5)。前四条将 LaTA 定位为一种系统;第五条定位我们的证据收集。

### 2.1 基于 LLM 的 STEM 自由响应问题评估

自 2023 年以来,大量工作探索了大型语言模型作为自由响应 STEM 内容的评分器,通常是针对简短、界限清晰的项目。Tan 等人 [27] 提供了跨学科基于 LLM 评估的最新调查,并总结了如今熟悉的模式:在简短、标准参照的项目上,强大的商业 LLM 达到的人类评分者一致性媲美或超过人际评分者信度,而在需要算术跟踪、多步骤符号操作或常识工程判断的长项目上则可预测地失败。Gao 等人 [14] 和 Vittorini 等人 [30] 调查了更广泛的 AI 在评估领域的景观,得出了类似的结论。Latif 和 Zhai [19] 表明,在少量标注科学响应语料库上微调开源权重模型可以显著提升特定学科项目的开箱即用行为,这是 LaTA 目前未应用但却是未来工作的自然方向。

大多数文献针对的是简短的论文式或简短计算项目;而高阶工程课程的独特特征(长、LaTeX 原生推导,携带中间符号操作)研究较少。这是一个大型开源权重模型的上下文窗口和推理能力最近才变得充足的设置。

另一系列工作将 LLM 视为辅导工具或反馈提供者,而非严格意义上的评分器 [34, 1, 13, 28]。在实践中,“评分器”和“辅导工具”之间的界限是模糊的:LaTA 的双通道反馈设计(面向助教的审计推理,面向学生的苏格拉底式提示)是有意向辅导文献以及将保留答案反馈作为生产性挣扎机制的工作致敬 [34]。

### 2.2 人在回路评分标准支架和思维链提示

相关的一条工作线较少关注原始评分器准确性,而更多关注位于教师评分标准和 LLM 输出之间的**支架**。AVALON [2]、SURE [18] 和 CoTAL [7] 都提出了结构化流水线,其中人类教师编写或完善评分标准,LLM 随后应用该标准,并保留明确的思维链推理以供人类审计。Lee 等人 [20] 研究了思维链提示对评分器一致性的影响,并报告在可以检查模型推理的项目上有非微不足道的增益。Chan 等人 [5] 从另一个方向解决问题,使用 LLM 生成或完善评分标准项目,而不是应用它们。

LaTA 的设计属于同一家族,但在两个方面有所不同。首先,我们使用推理模型评分器(此次部署为 gpt-oss:120b,但系统是模型无关的),它原生地在 `<thought>` 标签内产生其思维链,流水线将其从面向学生的输出中剥离,但保留在审计轨迹中——这更接近 CoTAL 的披露立场,而不是封闭 API 工作中被删节的思维链。其次,我们采用**二元**评分标准评分(§3.3),而不是部分信用评分,其假设是,LLM 对长推导评分中的方差主要来源是模糊的部分信用,而不是 outright misreading;这一选择比大多数 HITL 支架报告的更保守,并且针对长推导设置进行了调整,而在部分信用更具可行性且随机性/LLM 幻觉空间较小的短项目设置中并非如此。

### 2.3 高等教育中的本地和 FERPA 感知 AI

在美国高等教育中广泛部署 LLM 评分器的实际障碍是 FERPA、机构数据驻留政策和商业云 API 的合同地位之间的交集。Colonna [8] 和 Dan [11] 记录了教师和审计员对不提供关于学生数据下游使用合同保证的生成式 AI 产品的担忧,Fajardo-Ramos 等人 [13] 调查了因恰恰因此原因而在采购步骤停滞的 K-12 和高教部署。实践中还存在教师必须导航的机构特定规则:结果是,处理可识别学生作业的工具要么必须在传输前匿名化,要么托管在机构边界内。

关于教育中真正本地 LLM 部署的文献比云部署的文献更薄,这既反映了 capable open-weight 模型的新近性,也反映了建立工作站级推理主机的机构摩擦。Elkhodr 和 Gide [12] 描述了特定机构中的本地试点。LaTA 明确定位在这个空间的角落:一个可复现的、开源的参考,说明单个教师如何在单个工作站上建立合规的本地评分器,而不是带有合规包装的云产品。

### 2.4 作为教学基质的 LaTeX

LaTA 的提交工作流依赖于学生用 LaTeX 编写解决方案,这既是机器解析的先决条件,也是其本身的教学干预。关于 LaTeX 是帮助还是阻碍学生学习证据是混合的。Knauff 和 Nejasmic [17] 以及 Seo 等人 [26] 报告了与文字处理器相比,LaTeX 相关的重大初始时间成本,特别是对于没有先前编程接触的学生。Zhang [33] 和 Liu 等人 [21] 在认知负荷方面为这个问题提供了一个框架:学习 LaTeX 语法的额外负载与数学本身的关联合法负载竞争。Packer 和 Keates [24] 以及 Sánchez Egea 等人 [25] 的实践指南报告了其他领域中可以在此应用的缓解策略,例如结构化模板、LaTeX 结对编程和起始存储库。Wentworth Institute of Technology [31] 的职业生涯发展中心 和 uConnect [29] 认为,时间成本会在工程和技写作技能的职业价值中摊销。我们自己的 ramp-down 数据(图 5)与……

相似文章

教育中的LLM评判:基于课程大纲的评分流水线

arXiv cs.AI

本文提出了一种基于课程大纲的LLM评判流水线,用于高风险考试备考中的自动化试题评分。该流水线利用教学大纲材料及评分指南,提升一致性与透明度。初步评估显示,其评分结果与人工导师相当。

LLM-AutoSciLab:通过主动实验实现闭环科学发现

arXiv cs.LG

LLM-AutoSciLab是一个闭环框架,利用LLM迭代生成假设、选择信息量大的实验并优化机制,在物理和生物学基准测试上相比之前的静态方法实现了更高的准确性和样本效率。

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。