LiveK12Bench: 大型多模态模型真的征服了高中水平的考试吗?
摘要
介绍了LiveK12Bench,这是一个动态的多模态基准,用于评估大型模型在多个学科的真实高中考试中的表现,揭示了在现实约束下的显著性能差距。
arXiv:2605.26781v1 公告类型:新
摘要:先进的大型多模态模型在K-12推理任务中展示了令人印象深刻的性能,有望成为智能导师。要实现这一潜力,模型需要有效应对真实考试环境,但现有基准大多未能捕捉真实测试环境的复杂性。具体来说,大多数数据集是静态的,容易受到数据污染,并且通常局限于有限的模态、学科和评估标准。为了解决这些问题,我们引入了LiveK12Bench,一个动态、全面、多学科的基准,用于评估大型多模态模型在真实考试场景中的推理能力。LiveK12Bench包含2000多道经过验证的题目,涵盖数学、物理、化学和生物,题目来自最新的真实试卷,并且会随时间不断增长。我们的框架具有几项核心创新:1)一个自动化流水线,持续采集和解析最新试卷以减少数据泄露;2)提出了一种新颖的“模拟考试”评估方案,评估模型自主完成端到端考试的能力,要求准确且高效的推理路径。在12个大型多模态模型上的广泛实验表明,在接近真实考试的限制条件下,先进模型的性能显著下降:当同时评估过程的严谨性和效率时,GPT-5的得分从79降至53(满分100)。我们的发现揭示了关键的脆弱性,例如对复杂视觉布局的敏感性,凸显了理想化推理能力与真实教育准备度之间的差距。代码和数据集均已公开。
查看缓存全文
缓存时间: 2026/05/27 09:08
# LiveK12Bench:大型多模态模型真的征服了高中水平考试吗? 来源:https://arxiv.org/html/2605.26781 \\correspondingauthor shawnbywang@tencent\.com; goodli@tencent\.com\\reportnumber Mingze Yin腾讯PCG浙江大学计算机科学与技术学院共同第一作者Yilin Zhao腾讯PCGGang Liu腾讯PCGDian Li腾讯PCG通讯作者###### 摘要 先进的大型多模态模型(LMMs)在K-12推理任务中展现了令人瞩目的性能,显示出作为智能导师的巨大潜力。要发挥这一潜力,模型需要有效应对真实世界的考试,然而现有的大多数基准测试未能捕捉到真实考试环境的复杂性。具体而言,大多数数据集是静态的,容易受到数据污染,并且通常局限于受限的模态、学科和评估标准。为了解决这些问题,我们引入了LiveK12Bench,这是一个动态、全面、多学科的基准测试,旨在评估LMMs在真实考试场景中的推理能力。LiveK12Bench包含超过2000道经过验证的题目,涵盖数学、物理、化学和生物学科,这些题目来源于最新的真实考试试卷,并设计为随时间增长。我们的框架具有几项核心创新:1)提出自动化流水线,持续摄取和解析最新考试试卷以缓解数据泄露;2)提出新颖的"模拟考试"评估方案,评估模型自主完成端到端考试的能力,且推理路径准确高效。对12种LMM的大量实验表明,在考试真实约束条件下,先进模型性能显著下降:当同时评估过程严谨性和效率时,GPT-5的分数从79分降至53分(满分100分)。我们的发现揭示了关键弱点,例如对复杂视觉布局的敏感性,凸显了理想化推理能力与真实教育准备度之间的差距。代码(https://github.com/QQ-MM/LiveK12Bench)和数据集(https://huggingface.co/datasets/Shawn-wxh/livek12bench)均已公开发布。
## 1 引言
生成式人工智能正在迅速改变教育格局。随着大型语言模型不断突破推理能力的边界,它们在高中级别的数学基准测试(如MATH[hendrycks2021measuring]和AIME[aime25,ye2025aimepreview])上已经取得了近乎完美的成绩。然而,要真正成为人类学生有效且可靠的导师,AI首先需要展示成功应对真实人类考试的能力。尽管近期新闻经常强调先进LMMs在大学入学考试中能取得令人瞩目的分数,但一个关键问题仍然存在:大型多模态模型真的征服了高中水平考试吗?
为了推动AI推理的发展,主流研究主要集中在高度依赖逻辑的学科,如数学和编程。为了将推理能力与其他干扰因素隔离开,传统基准测试通常提供精心解析的题目信息,并且局限于评估易于验证的最终答案。最近,一些基准测试将重点转向评估教育背景下的生成式AI,引入了K-12多学科评估和基于照片的解题评估[zhang2023m3exam,ye2025mmscibench,das2024exams]。然而,这些现有基准测试难以全面回答上述问题,因为它们从根本上未能弥合AI评估与真实人类测试之间的三个核心差距:
1. **数据泄露**:大多数数据集是静态的。一旦发布,它们不可避免地会被纳入下一代LLM的训练语料中,使得后续评估不可靠,失去参考价值[sainz2023nlp]。
2. **评估不足**:人类考试在严格的时间和环境约束下对学生进行评估,全面评判最终答案以及不同重要性题目背后的逐步推理过程。相比之下,AI的评估标准仍然基本上是单一维度的。
3. **人为干预**:在K-12考试试卷上测试模型通常涉及手动提取题目、裁剪图像,或为视觉元素提供文字描述。因此,AI的任务输入与人类学生不同,无法实现真正的端到端考试。
这些差距使得准确估计主流LMMs作为智能导师或教育辅助工具的实际可用性和潜在价值变得极其困难。
为了解决这些局限性,我们提出了LiveK12Bench,一个动态、全面、多学科的AI考试基准测试,旨在系统研究主流LMMs在真实K-12场景中的能力和局限性。具体来说,为了从源头上根除测试数据泄露问题(并避免AI生成的合成题目的陷阱),LiveK12Bench引入了一种基于结构化文档提取和LLM解析的高效自动化考试试卷解析流水线。该流水线能够定期摄取一线教育工作者新编写的题目,持续扩展数据集规模。同时,我们提出了一种"模拟考试"评估方案,模拟人类考试的多维评估,从答案准确性、过程正确性、推理效率和加权综合考试成绩四个维度评估主流模型。在标准的纯文本和文本-图像多模态设置基础上,我们引入了"仅图像"整页模态。这种设置符合端到端测试场景,显著减少了人工辅助和干预。通过评估主流多模态推理模型(如图1所示),领先的LMMs在三种难度递增的场景下性能下降:从标准设置到包含过程和效率评估的考试评分,再到端到端的"仅图像"考试模态。这些分析见解为生成式AI在教育应用中的未来发展提供了重要启示。
我们的主要贡献总结如下:
- ∙\\bullet我们提出了首个全面、多学科的基准测试,全面模拟真实的人类K-12考试。
- ∙\\bullet我们设计了一个自动化的考试试卷摄取流水线,有助于数据集的高效动态迭代,有效缓解数据污染。
- ∙\\bullet我们引入了一个全面的"模拟考试"评估协议,评估推理过程和解题效率,并结合了试卷"仅图像"输入模态以施加真实世界的布局噪声。
## 2 LiveK12Bench
LiveK12Bench通过三项核心创新系统地解决了上述挑战:一个涵盖多学科和多模态场景的全面数据集、一个持续摄取最新考试试卷的动态数据构建流水线,以及一个新颖的"模拟考试"评估协议,要求在过程、效率和模态约束下进行端到端的解题。我们框架的整体架构和工作流程如图2所示。以下小节详细描述每个组件的设计和实现。
### 2.1 数据集组成与比较
LiveK12Bench数据集目前包含2114道高质量、人工验证的题目,涵盖四个严重依赖推理能力的核心K-12学科:数学、物理、化学和生物。数据集包含多种题型,包括选择题(MCQ)、填空题(FIB)和问答题(Q&A)。数据集由两个时间戳划分(26-03和26-05,表示题目发布时间),均提供中文和英文翻译版本。
为了全面评估大型语言模型(LLMs)和大型多模态模型(LMMs)的鲁棒性,我们整理了三种不同模态的任务,对应于三种现实的评估场景。正式地,令fθf\_\{\\theta\}表示被评估模型,T\\mathcal\{T\}表示文本输入,V\\mathcal\{V\}表示视觉输入。三种任务模态定义如下:
- •纯文本(TO):输入和预期输出均为纯文本,评估LLMs的基础语言和符号推理能力。任务形式化为A=fθ\(Tq\)A=f\_\{\\theta\}\(\\mathcal\{T\}\_\{q\}\),其中Tq\\mathcal\{T\}\_\{q\}表示文本题目题干和选项,AA为文本预测答案。
- •文本-图像(TI):输入为文本和图像的交错混合,评估LMMs将文本概念与视觉表示(例如几何图形、电路图或生物结构)相结合的能力。任务定义为A=fθ\(Tq,Vq\)A=f\_\{\\theta\}\(\\mathcal\{T\}\_\{q\},\\mathcal\{V\}\_\{q\}\),其中Vq\\mathcal\{V\}\_\{q\}表示解题所需的裁剪图像。
- •仅图像(IO,考试模式):输入为完整考试页面的未裁剪快照以及目标题号,模拟人类学生的真实考试环境。它有意移除了人工辅助的中间步骤,如手动OCR和图像裁剪。模型必须自主定位、提取并解释页面布局中的相关题目信息。任务形式化为:A=fθ\(Vpages,idx\)A=f\_\{\\theta\}\(\\mathcal\{V\}\_\{pages\},idx\) (1),其中Vpage\\mathcal\{V\}\_\{page\}是原始考试页面图像,idxidx是指定的要解决的题号。
除了核心输入,数据集还为每个题目提供丰富的元数据,包括由专业教育工作者标注的标准最终答案、逐步解题过程、题型、分值、学科类别以及细粒度的知识点标签。
表1:LiveK12Bench的关键统计信息。
| 类别 | 总计 | 数学 | 物理 | 化学 | 生物 |
|------|------|------|------|------|------|
| 任务模态 | - | - | - | - | - |
| - 纯文本 (TO) | 1,096 | 617 (56.3%) | 65 (5.9%) | 240 (21.9%) | 174 (15.9%) |
| - 文本-图像 (TI) | 1,018 | 155 (15.2%) | 331 (32.5%) | 292 (28.7%) | 240 (23.6%) |
| - 仅图像 (IO, 考试模式) | 2,114 | 772 (36.5%) | 220 (10.4%) | 532 (25.2%) | 414 (19.6%) |
| 题型 | - | - | - | - | - |
| - 选择题 (MCQ) | 1,473 | 444 (30.1%) | 274 (18.6%) | 419 (28.4%) | 336 (22.8%) |
| - 填空题 (FIB) | 164 | 119 (72.6%) | 26 (15.9%) | 18 (11.0%) | 1 (0.6%) |
| - 问答题 (Q&A) | 477 | 209 (43.8%) | 96 (20.1%) | 95 (19.9%) | 77 (16.1%) |
| 总题数 | 2,114 | 772 (36.5%) | 396 (18.7%) | 532 (25.2%) | 414 (19.6%) |
为了探究模型特有的弱点,先前的基准测试[MathVista, We-Math2.0]构建了多个子集来评估视觉推理的不同方面,如测量和谜题测试。与这种方法一致,为了捕捉真实世界K-12考试的独特挑战,我们特意在我们的基准测试中建立了三个子集(每个学科每个子集50道题,共600道),如下所示:
1. **复杂布局子集**:该子集专门针对真实考试试卷的视觉挑战,具有高度复杂视觉格式的题目布局。包括题目跨越多个页面、题干与对应图形在空间上分离、或图像紧密嵌入文本块中的情况。该子集挑战LMM从嘈杂的视觉边缘和复杂布局(例如,解释函数曲线和数据表)中准确提取推理上下文的能力。在该子集上的端到端熟练度是在现实世界中部署AI教育者的前提条件。
2. **严谨过程子集**:主流基准测试主要评估最终答案的准确性。然而,人类考试中选择题的设计通常允许学生通过排除法或表面启发式猜测正确选项,而无需严格推导底层概念。我们特意整理了那些分配了多个知识点且容易因"运气猜测"而得分(具有过多前提条件特征)的题目。该子集旨在评估模型通过逻辑合理且扎实的推理过程得出正确答案的能力(过程评估方法详见第2.3节)。
3. **长程推理子集**:该子集包含那些经常使模型陷入过长或循环推理链的问题,这些问题通常具有复杂目标,并在试卷中被分配了较高的分值。难度可能源于内在的数学复杂性、故意设置的混淆条件或具有欺骗性的视觉信息。其目的是专门评估LMMs的**推理效率**。直观地说,一个能够用更少的生成token正确解决复杂问题的AI模型在计算效率和用户体验上更优越。
根据上述标准和特征,我们使用先进的LLMs作为预标注器,从整个数据集中挖掘这些子集的典型题目。然后提示人类专家验证这些标注,并确定最终三个子集的组成。图3展示了来自这三个挑战性子集的示例,突出其不同的输入和对应的标注。图4和表1详细展示了数据集在学科、模态和题型上的统计分布。
### 2.2 动态数据构建流水线
为了解决普遍存在的数据污染问题,并确保我们评估的持续相关性,我们提出了一种基于结构化光学字符识别(OCR)和大型语言模型(LLM)解析的高度自动化数据构建流水线。该流水线系统地处理原始考试PDF,分类并提取文本和视觉元素,并利用LLM将内容分解为结构化字段(如题干、选项、标准答案和推理路径)以进行存档和后续评估。
具体来说,数据集构建包括以下四个阶段:
**考试试卷收集。** 我们收集了200份最新的(2026年出版)真实相似文章
基于日本全国学力·学习情况调查90万规模学生答题分布汇总数据的以人类为基准的多模态基准测试
研究人员提出了一种源自日本全国学力·学习情况调查的新多模态基准测试,包含90万条汇总的学生答题数据,用于评估多模态大语言模型(MLLM)在真实K-12教育场景下的表现。
TeachObs:一个经过人工验证的多模态教学观察与模型评估基准
TeachObs引入了一个经过人工验证的多模态教学观察基准,包含30个课堂视频,这些视频标注了片段级别的二元编码和课程级别的专家评分,并评估了五个前沿LLM在三个轨道上的表现,发现没有单一模型能持续优于其他模型,并且模型评估对程序清晰的课程给出了过高评价。
EDU-CIRCUIT-HW:评估多模态大语言模型在真实大学级 STEM 学生手写解答上的表现
本文介绍了 EDU-CIRCUIT-HW 数据集,用于评估多模态大语言模型在真实大学级 STEM 手写解答上的表现,揭示了显著的识别局限性,并提出了一种结合自动化识别与极少人工监督的混合方法,以增强评分的鲁棒性。
LEVANTE-bench:使用认知任务对VLM与儿童进行多尺度比较(或者,“你的VLM比五年级学生更聪明吗?”)
本文介绍了LEVANTE-bench,这是一个系统评估视觉-语言模型在六项认知任务上的表现,并将其与5-12岁儿童的表现进行比较的基准测试,发现当前的VLM仅部分与儿童的认知能力相符。
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。