EDU-CIRCUIT-HW:评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现

Hugging Face Daily Papers 论文

摘要

本文介绍了 EDU-CIRCUIT-HW 数据集,用于评估多模态大语言模型在真实大学级 STEM 手写解答上的表现,揭示了显著的识别局限性,并提出了一种结合自动化识别与极少人工监督的混合方法,以增强评分的鲁棒性。

多模态大语言模型(MLLMs)在革新传统教育和减轻教师工作量方面具有巨大潜力。然而,准确解读包含交织的数学公式、图表和文本推理的无约束 STEM 学生手写解答是一项重大挑战,这主要是由于缺乏真实且特定领域的基准数据集。此外,当前的评估范式主要依赖于下游任务的结果(例如自动评分),这些任务往往只探测识别内容的一小部分,因此无法全面捕捉 MLLMs 对复杂手写逻辑的整体理解。为了填补这一空白,我们发布了 EDU-CIRCUIT-HW,这是一个由来自大学级 STEM 课程的 1,300 多个真实学生手写解答组成的数据集。利用经过专家验证的学生解答逐字转录和评分报告,我们同时评估了各种 MLLMs 的上游识别保真度和下游自动评分性能。我们的评估揭示了 MLLM 识别的学生手写内容中惊人的潜在失败规模,突出了模型在高利害教育环境中用于自动评分和其他以理解为导向的应用时可靠性不足的问题。作为一种潜在的解决方案,我们提供了一个案例研究,证明利用已识别的错误模式来预先检测和纠正识别错误,同时只需极少的人工干预(例如,将 3.3% 的作业路由给人工评分者,其余交给 GPT-5.1 评分器),可以有效增强部署的 AI 辅助评分系统的鲁棒性。代码和数据集可在以下 GitHub 仓库中获得:https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:00

论文页面 - EDU-CIRCUIT-HW:在真实大学级理工科学生手写解题方案上评估多模态大语言模型

来源:https://huggingface.co/papers/2602.00095

摘要

EDU-CIRCUIT-HW 数据集揭示了多模态大语言模型(MLLMs)在准确解读复杂理工科手写解题方案方面的显著局限性,从而提出了一种结合自动识别与最少人工监督的混合方法,以提升教育评分系统的效果。

多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)在革新传统教育和减轻教师工作负荷方面具有巨大潜力。然而,由于缺乏真实且面向特定领域的基准,准确解读包含交错数学公式、图表和文本推理的非约束性理工科学生手写解题方案(https://huggingface.co/papers?q=handwritten%20solutions)构成了重大挑战。此外,当前的评估范式主要依赖于下游任务(https://huggingface.co/papers?q=downstream%20tasks)的结果(例如,自动评分(https://huggingface.co/papers?q=auto-grading)),这往往只探测到识别内容的一小部分,从而无法全面捕捉 MLLMs 对复杂手写逻辑的整体理解。为了弥合这一差距,我们发布了 EDU-CIRCUIT-HW,这是一个包含 1300 多个来自大学级理工科课程的真实学生手写解题方案(https://huggingface.co/papers?q=handwritten%20solutions)的数据集。利用经专家验证的学生解题方案逐字转录和评分报告(https://huggingface.co/papers?q=grading%20reports),我们同时评估了各种 MLLMs 的上游识别(https://huggingface.co/papers?q=upstream%20recognition)保真度和下游自动评分(https://huggingface.co/papers?q=auto-grading)性能。我们的评估发现了 MLLM 识别的学生手写内容中存在惊人规模的潜在错误(https://huggingface.co/papers?q=latent%20failures),凸显了模型在高风险教育环境中用于自动评分(https://huggingface.co/papers?q=auto-grading)及其他理解导向型应用时可靠性不足。作为一种潜在的解决方案,我们展示了一项案例研究,证明利用已识别的错误模式来预先检测和纠正识别错误,同时仅需极少的人工干预(例如,将 3.3% 的作业路由给人工评分员,其余由 GPT-5.1 评分员处理),可以有效增强已部署的 AI 赋能评分系统(https://huggingface.co/papers?q=AI-enabled%20grading%20system)的鲁棒性。代码和数据集可在以下 GitHub 仓库中找到:https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL。

查看 arXiv 页面 (https://arxiv.org/abs/2602.00095) 查看 PDF (https://arxiv.org/pdf/2602.00095) 项目页面 (https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL) GitHub (https://github.com/gt-learning-innovation/CIRCUIT_EDU_HW_ACL) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2602.00095)

在您的智能体中获取此论文:

hf papers read 2602\.00095

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。

引用此论文的数据集 0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。

引用此论文的 Spaces 0

暂无链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。

包含此论文的合集 0

暂无包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面进行链接。

相似文章

低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究

arXiv cs.CL

本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。