跨数据集布卢姆问题分类:监督模型与提示大语言模型

arXiv cs.CL 论文

摘要

本文评估了监督机器学习/深度学习模型和提示大语言模型在自动进行布卢姆分类学试题分类时的跨数据集泛化能力,发现大语言模型在不同教育背景下具有更强的鲁棒性。

arXiv:2606.13684v1 公告类型:交叉 摘要:自动进行布卢姆分类学试题分类可大幅减轻教师工作负担,但标注具有主观性且依赖于教师个体。以往的机器学习(ML)和深度学习(DL)方法在数据集内取得强劲结果,但鲜少在跨数据集场景下评估,导致现实世界泛化能力不明;同时,大语言模型(LLM)在布卢姆问题分类中的有效性尚未得到系统研究。我们评估了现有ML/DL方法的跨数据集泛化能力,并在五个数据集上采用多种提示策略测试了大语言模型;最佳提示策略结合了上下文示例与课程特定动作动词。监督ML/DL模型在未见数据集上性能大幅下降,而大语言模型更为稳定,表明其在不同教育背景下是一种鲁棒的替代方案。基于最佳提示策略,我们还开发了一个轻量级用户界面,支持教师自动分类大量试题库;可用性研究表明该界面工作负荷低、易用性高。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:59

# 跨数据集 Bloom 问题分类:监督式模型与提示式大语言模型
来源:https://arxiv.org/html/2606.13684
11institutetext:莱布尼茨科学技术信息中心 \(TIB\)
11email:\{abdolali\.faraji, mohammadreza\.molavi, reza\.tavakoli, gabor\.kismihok\}@tib\.eu22institutetext:热那亚大学
22email:zrasoulkhani@gmail\.comMohammadreza Molavi\*https://orcid.org/0009-0006-0423-0729Zohreh Rasoulkhanihttps://orcid.org/0009-0009-0628-1695Mohammadreza Tavakolihttps://orcid.org/0000-0002-7368-0794Gábor Kismihókhttps://orcid.org/0000-0003-3758-5455

###### 摘要

自动对评估问题进行 Bloom 分类可以大幅减轻教师工作量,但标注工作具有主观性且依赖教师个体。先前的机器学习 (ML) 和深度学习 (DL) 方法在数据集内部取得了较好的效果,但很少在跨数据集场景下进行评估,其现实世界中的泛化能力尚不明确;同时,大语言模型 (LLM) 在 Bloom 问题分类中的有效性也未被系统研究。我们在五个数据集上评估了现有 ML/DL 方法的跨数据集泛化能力,并采用多种提示策略评估了大语言模型的性能;最佳提示策略将上下文示例与课程特定行为动词相结合。监督式 ML/DL 模型在未见过的数据集上性能显著下降,而 LLM 则更加稳定,表明其在多样化的教育情境中是一种稳健的替代方案。基于最佳提示策略,我们还设计了一个轻量级用户界面,支持教师自动分类大型题库;一项可用性研究表明该界面工作负荷低且可用性高。

## 1 引言

Bloom 分类法[5 (https://arxiv.org/html/2606.13684#bib.bib18)]及其修订版[3 (https://arxiv.org/html/2606.13684#bib.bib19)]长期以来一直作为基础框架,用于按照认知复杂度层次组织学习目标和评估项目。通过将认知过程从低阶技能到高阶技能进行结构化的编排,Bloom 分类法支持教学活动与评估的系统化设计、分析与对齐。

尽管其重要性不言而喻,但依据 Bloom 分类法手动对评估问题进行分类耗时费力,尤其是对于大型题库或重复开设的课程[14 (https://arxiv.org/html/2606.13684#bib.bib5)]。这促使人们关注 Bloom 级别的自动分类,以减轻教师工作量并提高效率。然而,一个关键挑战在于 Bloom 标注本质上具有情境依赖性和教师个体性:同一个问题可能因教学目标、课程内容或教师视角的不同而被赋予不同解读[11 (https://arxiv.org/html/2606.13684#bib.bib8)]。因此,开发能够在不同教师和情境下可靠工作的自动化工具仍然是一个不容忽视的难题。

现有自动化 Bloom 级别问题分类的努力大多依赖 ML 和 DL 方法[7 (https://arxiv.org/html/2606.13684#bib.bib9),9 (https://arxiv.org/html/2606.13684#bib.bib4)]。虽然这些方法常能取得较高性能,但评估通常采用来自同一数据集的训练-测试划分进行。因此——鉴于前文讨论的 Bloom 标注具有情境和教师依赖性——这些模型对其他数据集或教师的泛化能力尚不清楚,限制了其实用价值。

近期,大语言模型 (LLMs) 作为传统 ML 和 DL 方法的替代方案出现,在广泛的文本分类任务中展现出强劲性能[2 (https://arxiv.org/html/2606.13684#bib.bib7)]。然而,尽管它们在教育应用中日益普及,其在基于 Bloom 分类法的评估问题分类方面的潜力尚未得到集中研究。

受这些空白驱动,本研究对评估问题的自动 Bloom 分类进行了深入探讨。首先,我们检验了现有 ML 和 DL 方法的跨数据集泛化能力,评估了在一个情境下训练的模型迁移到未见数据集的表现。其次,我们评估了大语言模型在跨数据集和多种提示策略下进行基于 Bloom 的问题分类的性能。最后,为了支持教师自动分类大型题库,我们基于表现最佳的方法设计并评估了一款用户界面 (UI) 的可用性。据此,我们回答了以下研究问题,这些问题也呈现在图1 (https://arxiv.org/html/2606.13684#S1.F1)中:

RQ1: 针对基于 Bloom 的问题分类所开发的 ML 和 DL 模型,在未见数据集上的泛化能力如何?

RQ2: 大语言模型在评估问题的 Bloom 分类上表现如何?

RQ3: 如何通过一个实用的用户界面支持基于 Bloom 的问题分类?

参见图注
图1:论文概览。对应 RQ1 的部分展示了使用一个数据集作为训练源的跨数据集评估,突出了在其他数据集上测试时的性能下降。RQ2 部分展示了 LLM 在不同提示策略下跨数据集的评估以及最佳提示的选择。RQ3 部分展示了基于该提示构建的 UI 的可用性研究。
## 2 相关工作

本节通过总结先前研究来定位我们的工作。我们将先前研究分为两种方法论类别:ML/DL 方法,以及近期利用 LLM 进行认知分类的研究。

### 2.1 Bloom 分类的 ML 和 DL 方法

早期的 Bloom 问题分类工作使用传统 ML。Yahya 等人[14 (https://arxiv.org/html/2606.13684#bib.bib5)]将任务视为使用支持向量机 (SVM) 的监督学习,并分析了频率特征和停用词去除的影响。Mohammed 和 Omar [9 (https://arxiv.org/html/2606.13684#bib.bib4)]提出了强调动词的词性感知 TF-IDF,将其与词嵌入结合,并评估了多种分类器 (SVM、逻辑回归、KNN),相比标准 TF-IDF 基线有所提升。其他工作探索了替代方法:Das 等人[6 (https://arxiv.org/html/2606.13684#bib.bib2)]应用标签级判别分析进行多类别 Bloom 分类,而 Wang 等人[13 (https://arxiv.org/html/2606.13684#bib.bib12)]提出了一种弱监督方法来减少标注需求。

近期工作越来越多地采用 DL 模型。Shaikh 等人[12 (https://arxiv.org/html/2606.13684#bib.bib1)]应用带有预训练词嵌入的 LSTM 网络来分类评估问题和课程学习成果。Gani 等人[7 (https://arxiv.org/html/2606.13684#bib.bib9)]研究了卷积神经网络结合多种预训练嵌入,包括非上下文 (Word2Vec、GloVe、FastText) 和上下文表示 (BERT、RoBERTa、ELECTRA),报告称在使用 CNN 与 RoBERTa 嵌入时取得了最佳结果。Das 等人[6 (https://arxiv.org/html/2606.13684#bib.bib2)]进一步通过微调 BERT 进行多类别 Bloom 分类来评估基于 Transformer 的模型,展示出相对于传统方法的显著优势。

尽管报告的性能很强,但评估通常使用随机数据集内训练-测试划分。因此,在一个数据集上训练的模型很少在其他数据集上测试,导致跨教师和教育情境的泛化能力在很大程度上未被探索,限制了其对未见数据的适用性。

### 2.2 用于认知分类的大语言模型

近期工作探索了在教育环境中使用 LLM 进行认知分类。Scaria 等人[11 (https://arxiv.org/html/2606.13684#bib.bib8)]专注于 Bloom 级别问题生成,并仅将 Bloom 分类用于评估生成的问题,提供了对该分类任务的初步(但非专门)观察。

Almatrafi 等人[2 (https://arxiv.org/html/2606.13684#bib.bib7)]研究了 GPT-4 对课程学习成果进行基于 Bloom 的分类,比较了多种提示策略(零样本、少样本和思维链)。Faraby 等人[1 (https://arxiv.org/html/2606.13684#bib.bib3)]使用 Graesser 分类法分析了 ChatGPT 对教育问题的分类,该分类法根据潜在认知过程而非 Bloom 级别来描述问题类型。

总体而言,先前的 LLM 工作集中于学习成果、使用其他分类法,或仅将 Bloom 分类用于评估生成的问题。针对 Bloom 问题分类的 LLM 系统性多数据集评估仍然有限,表明该领域仍处于起步阶段。

## 3 方法

本节概述我们的方法论,包括数据集、模型、评估流程和结果。代码、提示和数据集可在我们的仓库¹¹¹https://gitlab.com/zrasoulkhani/bloom-classification-aied2026 中获取。

### 3.1 数据集

本研究使用五个带有 Bloom 分类法标注的问题数据集,共计 4,179 个问题。其中四个数据集由人工撰写的评估问题组成,在 Bloom 分类研究中被频繁使用:Yahya 等人 (2012)[14 (https://arxiv.org/html/2606.13684#bib.bib5)]、Sangodiah 等人 (2017)[10 (https://arxiv.org/html/2606.13684#bib.bib6)]、Mohammed 和 Omar (2020)[9 (https://arxiv.org/html/2606.13684#bib.bib4)] 以及 Gani 等人 (2023)[7 (https://arxiv.org/html/2606.13684#bib.bib9)],分别包含 600、415、126 和 1,200 个问题。除人工生成的问题外,我们还纳入了 Scaria 等人 (2024)[11 (https://arxiv.org/html/2606.13684#bib.bib8)] 的 LLM 生成问题数据集(1,838 个问题)。纳入该数据集是为了反映当代学习环境中人工智能生成教育内容日益普及的趋势。

虽然所有数据集都提供了基于 Bloom 的标签,但有些遵循原始 Bloom 分类法,而其他则使用修订版 Bloom 分类法。为确保跨数据集的一致性和可比性,我们将所有标签映射到修订版 Bloom 认知层面;所得类别分布见表1 (https://arxiv.org/html/2606.13684#S3.T1)。

表1:五个数据集中各修订版 Bloom 层面问题的分布情况。
### 3.2 跨数据集泛化评估 (RQ1)

#### 3.2.1 分类模型

为了检验 Bloom 分类法问题分类模型的泛化能力,我们评估了先前工作中的两种代表性方法,涵盖传统 ML 和 DL 范式。

##### TFPOSIDF+SVM。

该模型是一个基于 SVM 的分类器,使用由词性信息加权的 TF-IDF 特征来表示问题。在这种方法中,根据词性标签为单词分配不同的权重,动词的权重更高,因为它们是 Bloom 认知层面的强有力指标[9 (https://arxiv.org/html/2606.13684#bib.bib4)]。

##### 微调 BERT。

作为深度学习参考模型,我们在实验中采用了一个基于 BERT 的文本分类模型,在 Bloom 标注数据上进行微调。我们采用了先前将 BERT 应用于 Bloom 分类的研究中报告的模型架构和超参数配置[2 (https://arxiv.org/html/2606.13684#bib.bib7)]。

#### 3.2.2 评估协议

对于每个数据集,我们执行跨数据集泛化评估。具体来说,选择一个数据集作为源数据集,并随机划分为 80% 训练集和 20% 测试集。模型在训练部分上进行训练,首先使用加权 F1 分数在测试集上衡量性能,这反映了先前研究中常用的评估协议。然后将训练好的模型在其余四个数据集上进行评估,这些数据集被视为未见测试集。此过程针对每个数据集重复进行,使得每个数据集一次作为训练源,多次作为未见测试集。

#### 3.2.3 结果与讨论。

表2 (https://arxiv.org/html/2606.13684#S3.T2) 报告了 TFPOSIDF+SVM 和微调 BERT 在五个数据集上的加权 F1 分数。对角线值对应训练数据集测试集上的性能,其他值代表跨数据集测试结果。对于 TFPOSIDF+SVM,根据训练数据集的不同,测试分数范围从 0.68 到 0.82,但在未见数据集上的性能平均下降 0.25,范围在 0.40 到 0.70 之间。类似地,微调 BERT 的测试分数在 0.76 到 0.91 之间,在其他数据集上评估时平均下降 0.28,范围从 0.31 到 0.76。

这些结果突显了 Bloom 问题分类固有的主观性和情境依赖性:在一个教师或情境的问题上训练的模型无法可靠地泛化到来自不同情境的未见数据集。我们的结果中观察到的唯一例外是,当 TFPOSIDF+SVM 在 Sangodiah 数据集上训练并在 Gani 数据集上测试时,加权 F1 分数小幅增加了 0.02。对于 BERT,没有观察到增加,但性能下降仅为 0.04,远小于平均跨数据集下降值 0.28。这种不对称性表明,Gani 问题中存在的多样性和情境已经体现在 Sangodiah 数据集中,从而在该方向上实现了更好的迁移。

表2:跨数据集泛化结果(加权 F1 分数)。

### 3.3 基于 LLM 的 Bloom 分类 (RQ2)

#### 3.3.1 大语言模型

为了检验 LLM 在 Bloom 分类法问题分类方面的潜力,我们评估了两个模型:GPT-5 和 GPT-5-mini。这两个模型均通过 Batch API 在基于提示的推理设置中使用默认配置,并且不进行特定任务的微调。相反,它们依赖上下文中的指令和示例来为输入问题分配 Bloom 认知层面。GPT-5 代表容量更高的模型,而 GPT-5-mini 则作为更小、更经济的替代方案,使我们能够同时检验最先进和成本效益高的 LLM 设置下的性能。

#### 3.3.2 提示策略

为了使用 LLM 对问题进行分类,我们评估了五种不同的提示策略。所有提示都旨在生成 JSON 格式的输出,以便跨数据集进行自动评估。

- •零样本:模型仅接收问题并被要求分配一个 Bloom 认知层面。
- •三样本:从同一数据集中随机抽取每个认知层面的三个示例,以提供最少的上下文指导。
- •十样本:从同一数据集中随机抽取每个认知层面的十个示例,以提供更丰富的上下文信息。
- •精选问题:每个层面手动选择最多十个示例,以更好地代表问题类型的多样性。对于每个数据集,由两位至少有五年教学和评估经验的专家共同进行选择。
- •精选问题+动词:在精选问题提示的基础上,我们加入了由专家为每个数据集中每个 Bloom 认知层面精选的关键行为动词集到提示中。

#### 3.3.3 评估协议

对于每个数据集,LLM 使用每种提示策略对所有问题进行分类,并将预测的 Bloom 级别与正确标签进行加权 F1 分数评估。

#### 3.3.4 结果与讨论

表3 (https://arxiv.org/html/2606.13684#S3.T3) 报告了 GPT-5 和 GPT-5-mini 在所有数据集和提示策略下的加权 F1 分数。结果表明,基于精心挑选示例的提示策略特别有效。Spe

相似文章

大语言模型可通过正确提示更好地捕捉人类判断

arXiv cs.CL

本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。