EDU-CIRCUIT-HW:评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现
摘要
本文介绍了 EDU-CIRCUIT-HW 数据集,用于评估多模态大语言模型在真实大学级 STEM 手写解答上的表现,揭示了显著的识别局限性,并提出了一种结合自动化识别与极少人工监督的混合方法,以增强评分的鲁棒性。
查看缓存全文
缓存时间: 2026/05/08 07:00
论文页面 - EDU-CIRCUIT-HW:在真实大学级理工科学生手写解题方案上评估多模态大语言模型
来源:https://huggingface.co/papers/2602.00095
摘要
EDU-CIRCUIT-HW 数据集揭示了多模态大语言模型(MLLMs)在准确解读复杂理工科手写解题方案方面的显著局限性,从而提出了一种结合自动识别与最少人工监督的混合方法,以提升教育评分系统的效果。
多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models)(MLLMs)在革新传统教育和减轻教师工作负荷方面具有巨大潜力。然而,由于缺乏真实且面向特定领域的基准,准确解读包含交错数学公式、图表和文本推理的非约束性理工科学生手写解题方案(https://huggingface.co/papers?q=handwritten%20solutions)构成了重大挑战。此外,当前的评估范式主要依赖于下游任务(https://huggingface.co/papers?q=downstream%20tasks)的结果(例如,自动评分(https://huggingface.co/papers?q=auto-grading)),这往往只探测到识别内容的一小部分,从而无法全面捕捉 MLLMs 对复杂手写逻辑的整体理解。为了弥合这一差距,我们发布了 EDU-CIRCUIT-HW,这是一个包含 1300 多个来自大学级理工科课程的真实学生手写解题方案(https://huggingface.co/papers?q=handwritten%20solutions)的数据集。利用经专家验证的学生解题方案逐字转录和评分报告(https://huggingface.co/papers?q=grading%20reports),我们同时评估了各种 MLLMs 的上游识别(https://huggingface.co/papers?q=upstream%20recognition)保真度和下游自动评分(https://huggingface.co/papers?q=auto-grading)性能。我们的评估发现了 MLLM 识别的学生手写内容中存在惊人规模的潜在错误(https://huggingface.co/papers?q=latent%20failures),凸显了模型在高风险教育环境中用于自动评分(https://huggingface.co/papers?q=auto-grading)及其他理解导向型应用时可靠性不足。作为一种潜在的解决方案,我们展示了一项案例研究,证明利用已识别的错误模式来预先检测和纠正识别错误,同时仅需极少的人工干预(例如,将 3.3% 的作业路由给人工评分员,其余由 GPT-5.1 评分员处理),可以有效增强已部署的 AI 赋能评分系统(https://huggingface.co/papers?q=AI-enabled%20grading%20system)的鲁棒性。代码和数据集可在以下 GitHub 仓库中找到:https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL。
查看 arXiv 页面 (https://arxiv.org/abs/2602.00095) 查看 PDF (https://arxiv.org/pdf/2602.00095) 项目页面 (https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL) GitHub (https://github.com/gt-learning-innovation/CIRCUIT_EDU_HW_ACL) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2602.00095)
在您的智能体中获取此论文:
hf papers read 2602\.00095
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。
引用此论文的数据集 0
暂无链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。
引用此论文的 Spaces 0
暂无链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2602.00095 即可在此页面进行链接。
包含此论文的合集 0
暂无包含此论文的合集
将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面进行链接。
相似文章
LiveK12Bench: 大型多模态模型真的征服了高中水平的考试吗?
介绍了LiveK12Bench,这是一个动态的多模态基准,用于评估大型模型在多个学科的真实高中考试中的表现,揭示了在现实约束下的显著性能差距。
低资源语言数学教育中的大语言模型:僧伽罗语和泰米尔语研究
本文评估了大语言模型在僧伽罗语和泰米尔语(两种资源匮乏的南亚语言)中的数学推理能力,采用独立编写问题的平行数据集进行评估。研究表明,虽然基础算术在跨语言间转移良好,但复杂推理任务在非英语语言中表现出显著性能下降,这对在多语言教育环境中部署AI辅导工具具有重要启示。
Elmes*:长尾教育场景下大型语言模型细粒度评估标准的自动构建
本文介绍了Elmes+,一个面向长尾教育场景下LLMs细粒度评估标准构建的自动化框架,并提出了涵盖11个学科330个场景的Edu-330基准。该框架使用多智能体引擎和自演化模块来协同优化评估标准与测试数据,揭示了顶级LLMs在多维教育能力上的差异。
MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强
本文介绍了MechVQA,一个包含3.3k高密度机械工程图纸和21k问答对的数据集,以及MechVL模型,该模型在MechVQA总分上优于现有基线7.57个百分点,推动了多模态LLM对机械图纸的理解。
基于日本全国学力·学习情况调查90万规模学生答题分布汇总数据的以人类为基准的多模态基准测试
研究人员提出了一种源自日本全国学力·学习情况调查的新多模态基准测试,包含90万条汇总的学生答题数据,用于评估多模态大语言模型(MLLM)在真实K-12教育场景下的表现。