利用课程先决条件图从对话式AI交互中检测知识缺口

arXiv cs.CL 2026/06/10 04:00 论文

knowledge-gap-detection conversational-ai teaching-assistants curriculum-knowledge-graph educational-data-mining few-shot-classification learning-analytics

摘要

该论文提出了一种流水线，利用少样本文本分类器和GPT-4提取的先决条件知识图谱，将学生在对话式AI助教中提出的问题映射到课程主题。在1,340个问题事件上实现了80%的准确率，并与学生自我报告的难度相关。

arXiv:2606.10736v1 公告类型: 新摘要：大型在线课程会产生数千条学生向对话式AI教学助手提出的问题，但这些交互日志作为诊断信号在很大程度上尚未被利用。我们提出了一种流水线，利用少样本文本分类器，基于GPT-4提取的课程概念先决知识图谱，将学生在对话式AI助教中提出的问题映射到课程主题。在来自一个研究生级别AI课程的164名学生的1,340个问题事件上进行评估，我们的分类器在43个标签（42个课程主题加上一个“未知”弃权类别）上达到了80.0%的准确率。主题级别的问题数量与学生独立进行的期中调查中的自我报告难度显著相关（rho = 0.491, p = 0.008, n = 28个主题），这提供了趋同证据，表明分类后的问题流反映了真实的主题难度。这些结果表明，对话式AI交互日志在映射到课程结构后，携带着关于主题级知识差距的可操作信号，并为教师提供了基于课程结构的视角，用以判断哪些主题值得关注。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:12

# 使用课程前置知识图检测对话式AI交互中的知识缺口
来源: https://arxiv.org/html/2606.10736
\\copyrightclause

版权所有归作者所有。根据知识共享署名4.0国际许可协议（CC BY 4.0）允许使用。

\\conference

CSEDM’26：第十届计算机科学教育数据挖掘研讨会，与第十八届国际教育数据挖掘会议（EDM 2026）同期举办，2026年

\[orcid=0009-0002-3343-0149, [email protected], \]\\cormark\[1\]

\[orcid=0009-0003-4450-0103, [email protected], \]

\[orcid=0009-0000-5993-1094, [email protected], \]

\[orcid=0000-0003-4043-0614, [email protected], \]

\\cortext

\[1\]通讯作者。

Junsoo Park, Ploy Thajchayapong, Ashok K. Goel
佐治亚理工学院，美国佐治亚州亚特兰大市

（2026年）

###### 摘要

大型在线课程会生成数千条学生向对话式AI助教提出的问题，但这些交互日志作为诊断信号的价值远未被充分挖掘。我们提出一个流程管道，利用小样本文本分类器，将学生对对话式AI助教提出的问题映射到课程主题上，分类器基于一个由GPT-4提取的课程概念前置知识图。在一个研究生级别AI课程中，对164名学生产生的1,340个问题事件进行评估后，我们的分类器在43个标签（42个课程主题加上一个“未知”弃权类别）上达到了80.0%的准确率。主题级别的问题数量与独立期中调查中学生自我报告的难度显著相关（ρ=0.491，p=0.008，n=28个主题），这提供了聚合证据，表明分类后的问题流确实反映了真实的主题难度。这些结果表明，将对话式AI交互日志映射到课程结构上，能够携带有关主题级知识缺口的可操作信号，并为教师提供一种基于课程的视图，显示哪些主题需要关注。

###### 关键词：

知识缺口检测，对话式AI助教，课程知识图，前置结构，小样本文本分类，教育数据挖掘，学习分析

## 1. 引言

对话式AI助教已被部署在大规模在线课程中，全天候回答学生问题[1 (https://arxiv.org/html/2606.10736#bib.bib1)]。每个提交的问题都是一条行为痕迹：它揭示了学生在思考哪个主题、何时思考，并间接反映出他们是否理解了前置材料[2 (https://arxiv.org/html/2606.10736#bib.bib2)]。尽管这些交互日志规模庞大，但除聚合仪表板之外[3 (https://arxiv.org/html/2606.10736#bib.bib3),4 (https://arxiv.org/html/2606.10736#bib.bib4)]，此前很少有工作将其用于个性化诊断目的。

现有的知识缺口检测方法依赖于结构化的项目反应（评估中的正确或错误答案），这需要精心设计的、与技能分类体系对齐的项目库[5 (https://arxiv.org/html/2606.10736#bib.bib5),6 (https://arxiv.org/html/2606.10736#bib.bib6)]。自由形式的对话问题更难分析：必须先将它们映射到课程主题，并且诊断信号是隐式的。一个学生就某个主题提出大量问题，或在其被教授数周后才提出问题，都是困难的行为特征，但提取这一信号既需要文本分类器，也需要一个课程模型。

本文提出了一个连接这两项需求的流程管道。我们利用一个由GPT-4提取的课程主题前置知识图和一个基于FastFit[7 (https://arxiv.org/html/2606.10736#bib.bib7)]的小样本文本分类器，将来自对话式AI助教的原始学生问题转化为基于课程的主题级信号。将**主题**（而非单个问题）作为分析单元这一设计选择，是由学生困难在课程作业中的实际表现方式所驱动的。学生常常在特定课程或主题上表现出困难，但根本原因往往并非局限于该主题：它存在于一个未完全巩固的上游前置主题中。将问题视为主题级信号，并将它们叠加到前置知识图上，正是使得这些结构性知识缺口变得可见的关键。主题级聚合还与教师可操作的粒度相匹配，并且在实证上比对每个问题的正确性评估更能抵御分类器噪声。这项正在进行中的工作围绕一个研究问题展开：

研究问题：*学生向对话式AI助教自然提出的问题，在映射到课程前置知识图后，能否揭示出与独立主题难度指标相匹配的主题级知识缺口？*

我们将研究问题分解为两个假设：

- • H1（分类）：小样本分类器将问题映射到课程主题的准确率足以支持下游主题级分析。
- • H2（调查一致性）：来自分类后流数据的主题级问题数量，与独立调查中自我报告的难度相关。

对H1的支持建立了上游测量步骤的可靠性，而对H2的支持则构成证据，表明由此产生的主题级信号反映了真实的课程级知识缺口：即整体上班级学生感到困难的那些主题。

步骤1-2：知识图谱与标注[GPT-4]
课程PDF → 前置图：54个主题，47条边。GPT-4标注1,046道学生问题。
步骤3-4：分类器训练与评估[H1]
FastFit批次对比微调，43个类别。黄金集：准确率80.0%，宏F1=0.669。
步骤5：调查验证[H2]
问题数量 vs. 自我报告难度（280名受访者，28个主题）：ρ=0.491, p=0.008。
图1：流程总览。H标签指示每个假设在何处进行评估。

## 2. 相关工作

**知识追踪。** 贝叶斯知识追踪[5 (https://arxiv.org/html/2606.10736#bib.bib5)]和深度知识追踪[6 (https://arxiv.org/html/2606.10736#bib.bib6)]从结构化项目反应序列中估计每个技能的掌握程度。扩展版本融入了前置结构[8 (https://arxiv.org/html/2606.10736#bib.bib8)]。这些方法需要对齐的项目库，无法应用于我们研究的自由形式对话问题。

**课程中的前置结构。** 主题之间的前置关系已从课程大纲[9 (https://arxiv.org/html/2606.10736#bib.bib9)]、教科书[10 (https://arxiv.org/html/2606.10736#bib.bib10)]和知识图谱中提取出来。先前的研究将这些结构用于课程设计和概念推荐，但未用于从对话日志中进行缺口检测。

**计算机科学教育中的对话式AI。** 我们的工作与先前在计算机科学教育中对话式AI的部署在以下两个方面有所不同：(i) 我们将聊天日志信号与LLM提取的课程前置知识图结合使用；(ii) 我们根据独立自我报告的难度调查而非参与度或保留率代理来验证生成的专题级别信号。该领域的先前工作主要将智能辅导系统和对话代理部署在编程课程和STEM环境中[11 (https://arxiv.org/html/2606.10736#bib.bib11)]。最近，在大型在线课程中部署的对话式AI助教每学期处理成千上万的学生查询，且最近的工作已开始分析这些聊天日志，用于自动知识缺口检测[3 (https://arxiv.org/html/2606.10736#bib.bib3)]和学习分析仪表板[4 (https://arxiv.org/html/2606.10736#bib.bib4)]。我们小组的互补研究方向考察了这些部署的表征和行为方面：从聊天日志交互中得出的学习者表征及其在后续差异化评估中的表现[12 (https://arxiv.org/html/2606.10736#bib.bib12)]；基于记忆与仅基于上下文的条件对LLM代理个性化行为的影响[13 (https://arxiv.org/html/2606.10736#bib.bib13)]；以及多层级AI部署中双向反馈的真实课堂评估[14 (https://arxiv.org/html/2606.10736#bib.bib14)]。

**小样本文本分类。** 句子级嵌入模型（如Sentence-BERT[15 (https://arxiv.org/html/2606.10736#bib.bib15)]）通过重用预训练嵌入之间的语义相似性，实现了在有限标注数据下的准确文本分类。SetFit[16 (https://arxiv.org/html/2606.10736#bib.bib16)]和FastFit[7 (https://arxiv.org/html/2606.10736#bib.bib7)]在此基础上通过对比目标调整嵌入空间，即使在每类只有一个标注示例的情况下也取得了有竞争力的准确性。我们使用FastFit正是基于这一特性：在我们设置中，几个课程主题的训练覆盖率极不均衡。

**LLM辅助的课程挖掘。** 最近，大语言模型被用于从非结构化课程内容中提取结构化的教育工件，包括概念列表、定义和前置关系[10 (https://arxiv.org/html/2606.10736#bib.bib10)]。我们在此角色中使用GPT-4来引导知识图谱和初始的弱标注问题池；人工标注的黄金集用于评估下游分类器。

## 3. 方法

### 3.1 知识图谱构建

在流程中的作用。在这项正在进行的工作中，前置知识图谱扮演两个不同的角色。首先，**主题节点**提供了流程其余部分所依赖的封闭标签空间：H1评估分类器相对于黄金集的准确率，该黄金集的标签来自此集合；H2通过跨两种工具对齐主题名称，将主题级问题数量与调查中的自我报告难度联系起来。两项分析都需要一个固定的、已命名的主题集；知识图谱提取正是用来产生这个集合的。其次，**有向前置边**编码了课程结构，未来的每学生缺口分析可以在此结构上进行传播：当观察到学生在某个下游主题上遇到困难时，图谱中的上游前置主题可识别出值得复习的候选根本原因主题。本文重点研究主题级信号（H1和H2）；我们认为沿前置边传播每学生缺口信号是此数据下一个直接的分析步骤，这在第5节中进行了描述。

一位具有领域专业知识的课程讲师使用GPT-4，按照三阶段协议，从美国一所R1大学研究生级别AI课程的26节课程PDF中提取主题和前置关系。(i) 主题提取：每份PDF被单独处理，GPT-4被提示列出该课程中引入的不同教学单元，并附上一句操作定义。(ii) 主题边界整合：跨课程近乎相同的主题被合并；教科书视为不同的主题（例如，基于案例的推理与类比推理）即使词汇重叠也保持分离。(iii) 边提取：对于每个候选对，GPT-4被给予两个定义，并询问其中一个是否是另一个的直接前置；模糊或双向响应被丢弃。生成的图谱包含**54个主题节点**和**47条有向前置边**（例如，语义网络→框架；基于案例的推理→类比推理；逻辑→基于解释的学习）。26节课程PDF及生成的节点/边数量总结在图2中。

图谱验证。有两项证据支持将生成的图谱视为后续分析中合理的、而非原始LLM输出的结果。首先，边提取阶段**丢弃了**所有GPT-4判断为双向或模糊的前置关系，因此图谱仅包含LLM能够明确判断的关系子集。其次，代表性边（语义网络→框架；基于案例的推理→类比推理）与课程教材中的课程顺序以及先前关于同一课程的教学法工作相匹配。我们不声称生成的图谱是唯一正确的结构；该协议是一种低成本、讲师可审计的方式，以获得支持下游分析的主题-边工件，而无需从头手动编写图谱。

| 课程模块 | 代表性主题 | 样例前置边 |
| --- | --- | --- |
| 基础 | AI基础；认知架构 | 认知架构→框架 |
| 知识表示 | 语义网络；框架；逻辑 | 语义网络→框架 |
| 问题求解 | 手段-目的分析；规划；子目标 | 规划→子目标 |
| 学习 | 泛化；版本空间；EBL | 逻辑→基于解释的学习 |
| 推理 | CBR；类比；常识 | 基于案例的推理→类比推理 |
| 智能体/伦理 | AI智能体特性；伦理 | AI基础→AI智能体 |

图2：GPT-4从26节课程PDF中提取的54个主题前置知识图的代表性切片。每行分组了在同一课程模块中教授的主题，并附带一个样例前置边；完整图谱有47条有向边。

### 3.2 问题分类

LLM辅助标注。1,046个问题池的训练标签是由GPT-4在封闭标签协议下生成的：提示列出了所有54个主题及其来自知识图谱阶段的一句定义，后跟学生问题，并要求给出最佳主题标签或当没有主题符合时的字面字符串“未知”。由于标签空间是固定且在提示中枚举的，GPT-4不能引入新主题，并且下游分类器继承了相同的有限标签空间。

为什么不直接使用LLM作为分类器？GPT-4在步骤1中产生了训练标签，因此自然可以问为什么我们要添加下游分类器，而不是在推理时调用GPT-4。我们保留FastFit分类器有两个原因。首先，推理时的GPT-4是非确定性的，且外部版本在变化；FastFit在多次运行中给出可复现的预测。其次，在同一个70个问题的黄金集上，使用相同的43类标签空间，在相同封闭标签提示下直接使用GPT-4的准确率为0.786，宏F1为0.654，略低于FastFit的0.800/0.669（表1）。因此，下游分类器在此任务上匹配了LLM的直接准确率，同时消除了每次查询对LLM的依赖。

模型。我们在1,046个LLM标注的学生问题上训练了一个FastFit[7 (https://arxiv.org/html/2606.10736#bib.bib7)]分类器。FastFit使用句子嵌入上的批次对比学习，在每类样本有限的情况下实现高准确率，这是一个关键属性，因为某些主题的训练样本只有1个。分类器将每个问题分配到54个主题类之一，或在置信度不足时分配“未知”标签。

骨干和预处理。我们使用all-mpnet-base-v2[15 (https://arxiv.org/html/2606.10736#bib.bib15)]作为冻结的句子嵌入骨干。每个原始的Caliper事件被解析以提取学生编写的问题字符串；在分类前移除系统生成的提示和单次会话中的重复问题。

训练配置。FastFit以批次大小32、学习率1×10^{-5}进行微调。

利用课程先决条件图从对话式AI交互中检测知识缺口

相似文章

嘿，Chat，你能教我吗？面向人类现实学习的苏格拉底式对话结构化

通过基准构建教授AI：QuestBench作为负责任知识工作的课程实践

利用人工智能进行教学

增强元认知AI：基于图论的大语言模型富集的知识图谱填充

利用知识图谱路径作为自进化搜索代理的中间监督

提交意见反馈