EDU-CIRCUIT-HW：评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现

Hugging Face Daily Papers 2026/04/30 00:00 论文

摘要

本文介绍了 EDU-CIRCUIT-HW 数据集，用于评估多模态大语言模型在真实大学级 STEM 手写解答上的表现，揭示了显著的识别局限性，并提出了一种结合自动化识别与极少人工监督的混合方法，以增强评分的鲁棒性。

多模态大语言模型（MLLMs）在革新传统教育和减轻教师工作量方面具有巨大潜力。然而，准确解读包含交织的数学公式、图表和文本推理的无约束 STEM 学生手写解答是一项重大挑战，这主要是由于缺乏真实且特定领域的基准数据集。此外，当前的评估范式主要依赖于下游任务的结果（例如自动评分），这些任务往往只探测识别内容的一小部分，因此无法全面捕捉 MLLMs 对复杂手写逻辑的整体理解。为了填补这一空白，我们发布了 EDU-CIRCUIT-HW，这是一个由来自大学级 STEM 课程的 1,300 多个真实学生手写解答组成的数据集。利用经过专家验证的学生解答逐字转录和评分报告，我们同时评估了各种 MLLMs 的上游识别保真度和下游自动评分性能。我们的评估揭示了 MLLM 识别的学生手写内容中惊人的潜在失败规模，突出了模型在高利害教育环境中用于自动评分和其他以理解为导向的应用时可靠性不足的问题。作为一种潜在的解决方案，我们提供了一个案例研究，证明利用已识别的错误模式来预先检测和纠正识别错误，同时只需极少的人工干预（例如，将 3.3% 的作业路由给人工评分者，其余交给 GPT-5.1 评分器），可以有效增强部署的 AI 辅助评分系统的鲁棒性。代码和数据集可在以下 GitHub 仓库中获得：https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:00

论文页面 - EDU-CIRCUIT-HW：在真实大学级理工科学生手写解题方案上评估多模态大语言模型

来源：https://huggingface.co/papers/2602.00095

摘要

EDU-CIRCUIT-HW 数据集揭示了多模态大语言模型（MLLMs）在准确解读复杂理工科手写解题方案方面的显著局限性，从而提出了一种结合自动识别与最少人工监督的混合方法，以提升教育评分系统的效果。

多模态大语言模型（https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models）（MLLMs）在革新传统教育和减轻教师工作负荷方面具有巨大潜力。然而，由于缺乏真实且面向特定领域的基准，准确解读包含交错数学公式、图表和文本推理的非约束性理工科学生手写解题方案（https://huggingface.co/papers?q=handwritten%20solutions）构成了重大挑战。此外，当前的评估范式主要依赖于下游任务（https://huggingface.co/papers?q=downstream%20tasks）的结果（例如，自动评分（https://huggingface.co/papers?q=auto-grading）），这往往只探测到识别内容的一小部分，从而无法全面捕捉 MLLMs 对复杂手写逻辑的整体理解。为了弥合这一差距，我们发布了 EDU-CIRCUIT-HW，这是一个包含 1300 多个来自大学级理工科课程的真实学生手写解题方案（https://huggingface.co/papers?q=handwritten%20solutions）的数据集。利用经专家验证的学生解题方案逐字转录和评分报告（https://huggingface.co/papers?q=grading%20reports），我们同时评估了各种 MLLMs 的上游识别（https://huggingface.co/papers?q=upstream%20recognition）保真度和下游自动评分（https://huggingface.co/papers?q=auto-grading）性能。我们的评估发现了 MLLM 识别的学生手写内容中存在惊人规模的潜在错误（https://huggingface.co/papers?q=latent%20failures），凸显了模型在高风险教育环境中用于自动评分（https://huggingface.co/papers?q=auto-grading）及其他理解导向型应用时可靠性不足。作为一种潜在的解决方案，我们展示了一项案例研究，证明利用已识别的错误模式来预先检测和纠正识别错误，同时仅需极少的人工干预（例如，将 3.3% 的作业路由给人工评分员，其余由 GPT-5.1 评分员处理），可以有效增强已部署的 AI 赋能评分系统（https://huggingface.co/papers?q=AI-enabled%20grading%20system）的鲁棒性。代码和数据集可在以下 GitHub 仓库中找到：https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL。

查看 arXiv 页面 (https://arxiv.org/abs/2602.00095) 查看 PDF (https://arxiv.org/pdf/2602.00095) 项目页面 (https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL) GitHub (https://github.com/gt-learning-innovation/CIRCUIT_EDU_HW_ACL) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2602.00095)

在您的智能体中获取此论文：

hf papers read 2602\.00095

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。

引用此论文的数据集 0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。

引用此论文的 Spaces 0

暂无链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。

包含此论文的合集 0

暂无包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面进行链接。

EDU-CIRCUIT-HW：评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现

论文页面 - EDU-CIRCUIT-HW：在真实大学级理工科学生手写解题方案上评估多模态大语言模型

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

LiveK12Bench: 大型多模态模型真的征服了高中水平的考试吗？

低资源语言数学教育中的大语言模型：僧伽罗语和泰米尔语研究

Elmes*：长尾教育场景下大型语言模型细粒度评估标准的自动构建

MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强

基于日本全国学力·学习情况调查90万规模学生答题分布汇总数据的以人类为基准的多模态基准测试

提交意见反馈