从记忆到创造:评估LLM生成教育问题的认知深度
摘要
本文通过布鲁姆分类学评估了六个LLM,以判断其生成能激发高阶思维的教育问题的能力,并引入了一种提示策略,该策略使重复率降低了24.45%,高阶输出增加了11.53%。
arXiv:2606.18257v1 Announce Type: cross
Abstract: 虽然LLM在自动化教育内容生成方面显示出潜力,但它们在生成能激发高阶思维的问题方面的能力仍未得到充分研究。本研究通过布鲁姆分类学的视角评估了六个广泛使用的LLM,重点关注它们超越死记硬背、实现认知飞跃的能力。采用混合人机评估协议,我们生成并分析了涵盖计算机科学、K-12数学和社会科学领域的20,700个问题。主要贡献包括:(1) 一种细粒度的提示策略,使Qwen2.5-7B-Instruct的问题重复率降低了24.45%,并使InternLM3-8B-Instruct的高阶认知水平输出比例提高了11.53%;(2) 认知转移强度(CogShift)和类别漂移的定量指标,揭示了InternLM3在多级转换中的优越性能;(3) 可解释性分析,揭示了指标层面的相关性,增强了思维链提示的透明度。我们的发现强调了认知感知提示设计的重要性,并为在个性化学习系统中部署LLM提供了基准。
查看缓存全文
缓存时间: 2026/06/18 05:43
# 从记忆到创造:评估大模型生成教育问题的认知深度 来源:https://arxiv.org/html/2606.18257 \(2026\) ###### 摘要 尽管大语言模型在自动化教育内容创作方面展现出潜力,但其生成能够激发高阶思维的问题的能力仍未得到充分研究。本研究通过布鲁姆分类学的视角,评估了六种广泛使用的大语言模型,重点关注它们超越机械记忆、实现认知跃迁的能力。我们采用人机混合评估协议,在计算机科学、K–12 数学和社会科学领域生成了 20,700 道问题并进行分析。主要贡献包括: (1) 一种细粒度提示策略,使 Qwen2.5-7B-Instruct 的问题重复率降低 24.45%,并使 InternLM3-8B-Instruct 的高阶认知层级输出比例提升 11.53%; (2) 用于衡量认知跃迁强度(CogShift)和类别漂移的定量指标,揭示了 InternLM3 在多级跃迁中的优越表现; (3) 一种可解释性分析,揭示了指标层面的相关性,从而增强了链式思维提示的透明度。 我们的发现强调了认知感知提示设计的重要性,并为在个性化学习系统中部署大语言模型提供了基准。 大语言模型,自动教育问题生成,布鲁姆分类学 ††journalyear:2026††copyright:cc††conference:Proceedings of the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.1; August 09–13, 2026; Jeju Island, Republic of Korea††booktitle:Proceedings of the 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.1 \(KDD ’26\), August 09–13, 2026, Jeju Island, Republic of Korea††doi:10.1145/3770854.3785686††isbn:979-8-4007-2258-5/2026/08††ccs:Computing methodologies Natural language generation††ccs:Social and professional topics K-12 education††ccs:Applied computing Computer-assisted instruction ## 1. 引言 人工智能的快速发展,尤其是大语言模型的出现,正在改变在线教育的未来 (Scaria et al., 2024; Chen et al., 2024b)。基于大语言模型的自动问题生成因其高效性、可扩展性和个性化潜力,已成为智能教育系统的基石 (Elkins et al., 2024; Li and Zhang, 2024)。该技术能够基于课程中的关键知识点快速生成大量问题,显著减轻教师在问题设计中的重复性工作,同时为自适应学习平台提供准确、动态的支持 (Wei et al., 2022; Chen et al., 2024a)。 参见图注 图 1. 当前大语言模型生成问题评估中的局限性示意图。红色高亮表示知识单元,蓝色高亮表示专家编写的示例。生成的输出与示例存在显著的词汇重叠,但与目标知识单元的匹配度较差。示例来源于 Scaria et al. 提出的公开数据集 (Scaria et al., 2024)。 现有研究主要关注生成问题的质量和知识相关性,往往忽略了教育的一个基本目标:认知水平的合理安排 (Kojima et al., 2022; Liu et al., 2025)。教育的真正价值不仅在于知识传递,还在于引导学习者实现认知跃迁——从“记忆事实”到“创造解决方案” (Scaria et al., 2024; Li and Zhang, 2024)。这种进行认知转变的能力反映了人类学习的深度,也是评估教育工具效用的关键指标 (Gong et al., 2022; Mucciaccia et al., 2025)。例如,从高到低的认知维度回归可能导致问题低于学生的实际认知水平,从而缺乏足够的挑战性 (Tobler et al., 2022; Daheim et al., 2024)。相反,相邻认知层级之间的转变有助于循序渐进的学习并促进认知发展 (Fedyk and Ray, 2023; Li and Zhang, 2024)。此外,从低到高的认知跃迁虽然能激发深度思考,但也会带来更高的认知负荷 (Muse et al., 2023; Park et al., 2024)。 因此,准确捕捉认知层级转变并将其纳入问题生成评估,正成为大模型在教育内容创作中的一个重要研究领域 (Muse et al., 2023; Chen et al., 2024b; Arvan et al., 2023)。通过改进评估认知转变的方法,我们可以增强大语言模型在个性化教育中的适应性,确保生成的问题能够适当挑战处于不同认知发展阶段的学习者 (Scaria et al., 2024; Yuan et al., 2022)。 教育心理学研究表明,有效学习基于认知能力的层级递进,布鲁姆分类学为此提供了系统框架 (Anderson and Krathwohl, 2001; Scaria et al., 2024)。该框架将认知能力分为六个层次:记忆、理解、应用、分析、评价和创造,强调需要逐步突破以提升学生的整体认知能力 (Anderson and Krathwohl, 2001; Li and Zhang, 2024; Chen et al., 2024a)。这种层级化方法对于构建促进认知成长和深度学习的学习体验至关重要 (Elkins et al., 2024; Kojima et al., 2022)。此外,它凸显了设计鼓励相邻认知层级间转变的学习体验的重要性,从而营造有利于渐进式技能发展的环境 (Wei et al., 2022; Yuan et al., 2022)。 然而,如图1所示,目前基于大语言模型的问题生成和评估方法存在明显的局限性:(1) 知识单元与示例问题并非总是对齐,导致生成问题的知识相关性不足;(2) 评估过程主要关注认知类别的一致性,忽略了不同认知水平之间潜在的认知转变。这种局限性使得模型无法有效适应学习者的实际认知水平,也无法促进深度思考或实现认知跃迁。 为了解决这些挑战,我们提出了一种基于布鲁姆分类学的问题生成与评估框架,将视角从知识点转向认知跃迁范式。我们的贡献可以总结如下: - **精确对齐与生成控制**:由经验丰富的教育工作者编写的高质量示例问题与相应的知识单元精确匹配,每个问题的目标布鲁姆层级被明确指定,并利用上下文学习来减少生成过程中的认知退化。 - **综合量化评估**:我们设计了一套集成指标——问题有用性、知识覆盖度、认知一致性和认知跃迁——客观评估生成问题的质量和认知深度。 - **实证可解释性洞察**:实验表明,知识识别与覆盖度之间,以及问题分类得分与类别一致性之间存在强相关性,从而增强了链式思维提示的可解释性。 表 1. 按布鲁姆层级和相关知识单元划分的数据集问题分布。 ## 2. 相关工作 ### 2.1. 教育问题生成 大语言模型的最新进展展示了强大的零样本和少样本推理能力,尤其是在结构化提示策略下。Kojima et al. (Kojima et al., 2022) 证明了大语言模型在精心设计的提示指导下,能够在零样本场景中表现出胜任的推理性能。Wei et al. (Wei et al., 2022) 引入了链式思维提示来引出逐步推理,显著提高了模型在复杂任务上的准确性。Shi et al. (Shi et al., 2023) 进一步通过自动搜索和选择优化了提示空间,增强了少样本推理能力。这些能力已催生了许多教育内容生成方面的应用。 Kokku et al. (Kokku et al., 2018) 将 AI 系统集成到课堂环境中,以支持个性化教学和自适应反馈。Laban et al. (Laban et al., 2022) 提出了一种通过利用自动问题生成技术来辅助教育工作者设计测验的系统。Wang et al. (Wang et al., 2024) 从教科书中生成师生互动,支持教育聊天机器人的规模化开发。为确保认知相关性,许多研究将布鲁姆分类学纳入问题生成流程。 Elkins et al. (Elkins et al., 2024) 将提示策略与布鲁姆认知层级对齐,以生成更具教学有效性的测验题。Bartel et al. (Bartel et al., 2023) 讨论了在实际教育研究中实施认知学习原则(如布鲁姆分类学)所面临的挑战。D’Silva and Matlen (D’Silva and Matlen, 2023) 强调了认知学习干预设计中的公平性和严谨性,主张包容性的 AI 驱动教学。为了提高生成内容的可控性和保真度,研究者提出了各种技术。 Qiu and Chen (Qiu and Chen, 2025) 提出了一种用于自适应测试的知识图谱推理模型,支持精确的概念层级控制。Feng and He (Feng and He, 2025) 通过将结构化知识集成到大语言模型中,增强了问答中逻辑形式生成的性能。Ravikiran et al. (Ravikiran et al., 2025) 开发了一个用于估算印度语言中多选题难度的框架,促进了语言敏感的问题校准。Chen et al. (Chen et al., 2022) 提出了一种生长与剪枝策略,用于提取简洁但信息丰富的证据,提升了教育场景中答案解释的质量。Liao et al. (Liao et al., 2025a, b) 通过嵌入符号知识和激活内部表征,提高了基于大语言模型的问题生成的可控性和可解释性。 表 2. 我们的框架与代表性指令/数据合成及教育问答系统的比较。DS = 数据合成,Bloom = 布鲁姆对齐,Cog = 认知评估,Cov = 知识覆盖度,Human = 人工评估,Edu = 教育焦点。“✓”表示该方面被明确处理;“–”表示非主要关注点。 ### 2.2. 评估基准 教育问题生成的评估通常依赖于专家标注或布鲁姆风格分类。Scaria et al. (Scaria et al., 2024) 对多种大语言模型进行了全面的基准研究,评估其生成与布鲁姆认知层级对齐的问题的能力。Elkins et al. (Elkins et al., 2024) 使用布鲁姆分类学评估了大语言模型生成的测验题,以检查目标认知技能与实际认知技能之间的一致性。Anderson and Krathwohl (Anderson and Krathwohl, 2001) 提供了修订版的布鲁姆分类学,该分类学至今仍是教育中认知层级评估的基础。Chen et al. (Chen et al., 2024b) 引入了 Dr. Academy,这是一个将大语言模型视为教学代理的基准,从一致性、相关性、覆盖度和代表性角度评估生成的问题。Gong et al. (Gong et al., 2022) 发布了 KhanQ 数据集,提供了带有认知标注的问题,支持深度问题生成和细粒度评估。 Park et al. (Park et al., 2024) 开发了一个零样本框架,利用大语言模型作为学生模拟器来估算问题难度,建模其在布鲁姆各层级上的表现。Muse et al. (Muse et al., 2023) 证明了对科学文本进行领域特定预训练可以增强生成教育内容的深度和质量。Yuan et al. (Yuan et al., 2022) 提出了采样和排序技术,用于从大语言模型输出中选择高质量问题,从而提高教育对齐度。Tobler et al. (Tobler et al., 2022) 研究了先前知识在叙事式学习中的作用,强调了将问题复杂度与学习者准备度相匹配的重要性。Arvan et al. (Arvan et al., 2023) 分析了教学对话中的认知负荷,揭示了语言特征如何影响理解。Fedyk and Ray (Fedyk and Ray, 2023) 主张将机器学习可解释性与认知心理学相结合,以指导实验假设的生成。 尽管有这些努力,现有的大多数基准评估缺乏同时评估知识相关性和认知深度的机制,并且很少捕捉布鲁姆层级复杂性的转变。表 2 将我们的框架与代表性的指令微调和教育问答系统在六个方法论维度上进行了比较。为填补这一空白,
相似文章
LLMs能否被约束在过往?通过基于回忆的提示改进知识截止
本文提出了基于回忆的提示策略(Self-Recall和Question-Recall),以提升LLM对知识截止的遵循能力,在反事实问题上优于现有方法,并引入多截止历史事件基准(MHEB)用于鲁棒性评估。
大语言模型能泄露训练数据,但它们愿意吗?对LLM记忆的倾向性感知评估
PropMe是一个倾向性感知框架,用于评估LLM的记忆,区分强制复现能力和自然倾向,使用SimpleTrace在开放模型和数据集上进行确定性归因。
跨数据集布卢姆问题分类:监督模型与提示大语言模型
本文评估了监督机器学习/深度学习模型和提示大语言模型在自动进行布卢姆分类学试题分类时的跨数据集泛化能力,发现大语言模型在不同教育背景下具有更强的鲁棒性。
少即是多:认知负荷与LLM数学推理的单提示天花板
针对LLM形式化数学推理的实证研究发现“单提示天花板”现象:无论提示多长,准确率均停滞在60–79%,根源在于不可判定性、模型脆弱性与分布失配。
学习提示:通过自适应基于LLM的高中辅导提高学生参与度
本文提出了一种自适应、学科感知的提示路由框架,用于基于LLM的高中辅导,利用14个教学特征来切换策略。对359名学生进行的A/B测试显示,与静态基线相比,效率和转化率有所提高。