面向AI教育中算法追踪与问题求解的检索增强型辅导

arXiv cs.AI 论文

摘要

本文介绍了KITE,一个基于检索增强生成(RAG)的智能辅导系统,用于AI教育中的算法推理和问题求解。该系统采用意图感知的苏格拉底式回应策略和多模态RAG,提供基于课程内容、符合教学法的反馈,并通过指标评估、专家评审和模拟学生交互进行评价。

arXiv:2605.12988v1 公告类型:新发布 摘要:学习算法的学生通常需要在解释追踪轨迹、调试推理错误以及在陌生问题实例中应用过程时获得支持。在本文中,我们提出了KITE(知识引导辅导引擎),一个基于检索增强生成(RAG)的智能辅导系统,旨在作为算法推理和问题求解任务的课堂教学助手。KITE使用意图感知的苏格拉底式回应策略,针对不同学生需求提供定制化支持,包括针对性提示、引导性问题以及渐进式脚手架,旨在增强学生的算法问题解决能力。为使回应与课程内容保持一致,KITE采用多模态RAG流水线,从课程材料中检索相关信息。我们通过三种评估形式对KITE进行评价:基于RAGAs指标的回应的依据性和质量评估、教学质量的专家评估,以及一个模拟学生流水线,其中较弱的语言模型与KITE进行两轮对话并在接收反馈后生成修改后的答案。结果表明,KITE能产生具有上下文依据且符合教学法的回应。此外,通过模拟学生,KITE的反馈帮助学生模型在程序性和追踪性问题中生成更准确的后续回应,表明其脚手架支持能够辅助算法问题求解。本工作贡献了一种辅导架构和一种评估方法,用于评估基于检索的解释和脚手架式问题求解反馈。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:14

# 面向人工智能教育中算法追踪与问题求解的检索增强型辅导

来源:https://arxiv.org/html/2605.12988
Mragisha Jain¹, Tirth Bhatt¹, Griffin Pitts¹, Aum Pandya¹, Peter Brusilovsky², Narges Norouzi³, Arto Hellas⁴, Juho Leinonen⁴, Bita Akram¹\*

¹北卡罗来纳州立大学,²匹兹堡大学,³加州大学伯克利分校,⁴阿尔托大学,\*通讯作者:bakram@ncsu\.edu (https://arxiv.org/html/2605.12988v1/mailto:[email protected])

###### 摘要

学习算法的学生在解释追踪过程、调试推理错误以及将算法应用于不熟悉的问题实例时,通常需要支持。本文介绍了KITE(知识驱动辅导引擎),一个基于检索增强生成(RAG)的智能辅导系统,旨在作为课堂助教,支持算法推理和问题求解任务。KITE采用意图感知的苏格拉底式回答策略,根据学生的不同需求提供有针对性的提示、引导问题和渐进式支架,以增强学生的算法问题解决能力。为确保回答与课程内容一致,KITE使用多模态RAG流水线,从课程材料中检索相关信息。我们通过三种评估方式对KITE进行评价:基于RAGAs的指标评估回答的根据性与质量;专家评估教学法质量;以及一个模拟学生流水线,其中较弱的语言模型与KITE进行两轮对话,并在收到反馈后修订答案。结果表明,KITE能产生情境相关且教学法适当的回答。此外,通过模拟学生,KITE的反馈帮助这些学生模型在程序性和追踪类问题上产生更准确的后续回答,表明其支架式辅导能支持算法问题求解。本工作贡献了一种辅导架构以及一种评估检索依据性解释和支架式问题求解反馈的方法。

面向人工智能教育中算法追踪与问题求解的检索增强型辅导

Mragisha Jain¹, Tirth Bhatt¹, Griffin Pitts¹, Aum Pandya¹, Peter Brusilovsky², Narges Norouzi³, Arto Hellas⁴, Juho Leinonen⁴, Bita Akram¹\*¹北卡罗来纳州立大学,²匹兹堡大学,³加州大学伯克利分校,⁴阿尔托大学,\*通讯作者:bakram@ncsu\.edu (https://arxiv.org/html/2605.12988v1/mailto:[email protected])

## 1 引言

大型语言模型(LLM),如ChatGPT,现在已被学生广泛用于学习支持,包括解释、反馈和问题求解等场景 (Pitts et al., 2025b;Pitts and Motamedi, 2026)。学生常常看重这些工具,因为当教师或助教不可用时,它们能立即提供帮助 (Pitts et al., 2025b)。尽管这些工具使信息更易获取,但先前的研究提出了担忧:学生可能在没有充分评估的情况下接受AI生成的回答,尤其是当这些回答显得完整且自信时 (Essel et al., 2024;Pitts et al., 2025c, 2026)。在教育中,这可能导致学生绕过作业旨在培养的推理过程 (Pitts et al., 2025c, 2026)。这些担忧凸显了需要基于LLM的系统,既能提供及时、与课程相关的内容,又能提供教学法上适当的支持,帮助学生推理学习任务。

检索增强生成 (RAG) (Lewis et al., 2020) 为构建课程驱动的辅导系统提供了一种有前景的方法,允许LLM的回答依赖精心策划的教学材料。这种依据性可以减少未经支持或与课程不一致的声称,并帮助将解释与课程中使用的概念、术语和惯例对齐。然而,强大的检索本身并不能保证有效的辅导。即使系统检索到了相关材料,它仍可能提供过于直接、教学性不足或与学生当前学习需求不匹配的回答。先前关于智能辅导系统的工作表明,有效支持既取决于所提供信息的准确性,也取决于提供帮助的方式,包括何时提供直接解释、反馈或更有指导性的支持 (Koedinger and Aleven, 2007)。

苏格拉底式辅导提供了一种解决此挑战的方法:通过有针对性的问题、提示和渐进式提示引导学习者,而不是立即提供完整解决方案。这种方法根植于认知学徒制和引导式促进 (Collins et al., 1989;Hmelo-Silver and Barrows, 2006),并已用于诸如AutoTutor等对话式辅导系统 (Graesser et al., 1999)。然而,将苏格拉底式引导整合到检索依据性辅导系统中仍然是一个开放的设计问题:一个针对特定课程的辅导器必须在忠实于教学材料的同时,提供适合学生所尝试解决问题类型的反馈。

在本文中,我们介绍了KITE(知识驱动辅导引擎),一个基于RAG的智能辅导系统,它将学生与相关课程材料联系起来,同时使用意图感知的辅导策略来支持不同形式的求助。KITE使用一个多阶段多模态检索流水线来定位相关教学内容,并使用意图感知的回答策略来决定这些内容应如何在回答中使用。对于需要直接解释的问题,KITE提供与检索到的课程材料一致的答案。对于程序性、调试、验证和追踪类问题,KITE提供有针对性的反馈、引导问题和渐进式提示,以支持学生推理。为了评估KITE,我们首先使用基于RAGAs的指标评估其检索依据性输出(针对非程序性问题)的依据性、相关性和回答质量。然后,我们通过一个模拟学生流水线评估程序性和追踪问题:一个较弱的语言模型在收到KITE的反馈后修订其答案。最后,人类专家评估由此产生的互动,判断反馈质量以及修订答案是否有所改进。本工作贡献了:(1) KITE,一个结合多模态检索与教学支持的意图感知辅导系统;(2) 使用自动化指标、模拟学生和专家评估对其检索依据性回答和支架式反馈进行的评估。我们评估两个研究问题:**RQ1**:KITE为学生的非程序性问题产生有依据且与课程相关的回答的效果如何?**RQ2**:KITE的反馈在多大程度上支持了对程序性和追踪问题的改进回答?

## 2 相关工作

基于RAG的教育助手已被用于多种教学目的,包括互动学习支持、内容生成和大规模课堂部署 (Li et al., 2025)。在这些系统中,将LLM的回答基于课程材料通常能提高事实准确性,相比于未增强的模型。例如,KAG (Hasan et al., 2025) 报告其Precision@5为0.85,学生任务完成时间减少34%;而MoodleBot (Neumann et al., 2024) 在与课程相关的查询上达到88%的准确率。然而,这些系统主要充当直接问答工具,不能根据学生不同的求助形式调整其回答。

尽管RAG能提升事实准确性,但部署研究表明,课程驱动的助手也需要在教学工作流程中进行评估。在一次课堂部署中,学生表现出强烈的考前参与度,但跨队列采用率下降,36.8%的学生在回答超出受限知识库时感到沮丧 (Thesen and Park, 2025)。Edison (Miroyan et al., 2025) 是一个基于GPT-4的RAG助手,部署于大型数据科学课程,表明从课程文档和历史问答中检索可以支持对实时学生问题的准确和相关回答。该研究也展示了“助教参与循环”评估的价值,使用教师编辑和评分来评估事实性、相关性、风格和效率。EduMod-LLM (Mittal et al., 2026) 扩展了这条路线,将教育问答视为模块化流水线,分离函数调用、检索和回答生成,使系统行为可以更透明地评估。

对话式辅导为支持学生推理提供了另一个基础。AutoTutor (Graesser et al., 1999) 表明,渐进式提示和协作答案精炼产生的对话被领域专家评为高于“良好”阈值,语义评估与专家判断的相关性为0.49。最近,Li等人 (2026) 报告了医疗保健教育中苏格拉底式AI平台的显著自我效能提升 (d=0.57)。LeanTutor (Patel et al., 2026) 类似地强调引导式反馈,结合LLM与定理证明器来检查学生证明、识别错误并提供提示,以引导正确的证明而不直接给出完整答案。这些系统显示了支架式反馈对于需要学生推理过程的学习任务的价值,但它们并未融入检索依据性来保持回答与特定课程材料对齐。

参考图注图1:KITE架构其他系统探索了检索和回答策略如何适应学习情境。LPITutor (Liu et al., 2025) 通过RAG和提示工程支持自适应难度调节。KG-RAG (Dong et al., 2025) 将语义检索与专家验证的知识图谱结合,在76名学生的研究中报告了35%的学习成果提升 (d=0.86),但其依赖人工专家验证限制了可扩展性。AutoTA (Dahal et al., 2025) 提供了一种相关的意图感知教育辅助方法,对学生查询进行分类并路由到专门的回答策略。这些系统显示了根据不同学习需求调整检索、领域结构和回答行为的重要性。KITE在此基础上,将多阶段检索与针对算法推理任务的意图感知辅导策略相结合。

## 3 系统设计

KITE是一个检索增强型辅导系统,旨在为算法推理和问题求解任务提供课程驱动的对话支持。如图1所示,系统包含五个组件:文档预处理、嵌入生成、多阶段检索、意图感知回答生成和会话管理。

### 3.1 阶段1:文档摄取与预处理

KITE首先使用PyMuPDF从课程PDF中提取文本。逐页提取,以便在检索过程中保持原始文档结构的可追踪性。在索引之前为减少噪声,系统应用基于频率的清理步骤,移除重复的页眉、页脚、页码及其他格式痕迹。具体来说,它检查每页的前两行和后两行,识别跨页面重复的模式,移除这些模式以及页码和特殊字符,并规范化空白。

然后,将清理后的文本分割成语义连贯的块,用于检索。我们使用基于章节的分块,目标大小为500个字符(约125个token),重叠为100个字符。保留标题以保持局部结构,重叠部分携带前一区块的最后两个句子。

### 3.2 阶段2:嵌入生成

每个区块使用OpenAI的text-embedding-3-large模型编码,生成3072维嵌入。这些向量经过L2归一化,使得余弦相似度反映语义方向,并存储在FAISS索引 (Johnson et al., 2019) 中,以实现高效的本地检索。

### 3.3 阶段3:多阶段检索流水线

KITE使用多阶段流水线,旨在平衡课程内容检索的高召回率和高精确度。检索从稠密双编码器搜索开始,针对学生查询返回前50个候选区块。查询和文档区块独立编码,使用余弦相似度计算相似性,使系统能捕获语义相关的内容。

然后,通过混合检索对候选集进行细化。稠密相似度占检索分数的70%,稀疏BM25关键词匹配占30%。这种组合捕获了语义相似性和精确的词汇重叠,当学生使用课程特定术语、符号或算法名称时尤其有用。

为减少检索段落之间的冗余,KITE应用最大边际相关性 (MMR),λ设为0.7:

MMR = λ × 相关性 + (1 - λ) × 多样性

检索到的候选通过交叉编码器/ms-marco-MiniLM-L-6-v2重排序模型(通过Sentence Transformers实现)进行重排序,其中查询和文档联合编码以产生更精确的相关性分数。最后,KITE应用基于来源的提升,使得来自官方课程材料的区块获得更高优先级。重排序分数高于0.6的区块额外获得0.3的提升。传递给生成器的最终上下文由排名前八的区块组成。

### 3.4 阶段4:意图分类与教学法回答生成

KITE对所有学生问题不使用单一回答策略。相反,它首先根据教学意图对每个查询进行分类,然后生成与互动教学目的相匹配的回答。这使得系统能够区分问题、调试请求以及其他形式的求助。

#### 3.4.1 意图分类

每个传入的查询使用关键词和模式匹配分类器分类为五种教学意图之一,如图1所示。

- **直接问题**:寻求定义或解释的事实性查询(例如,“什么是A*?”)
- **概念性问题**:更深入的为什么或如何问题,探查理解(例如,“为什么BFS能保证最短路径?”)
- **算法验证**:学生提交自己的实现或追踪供评估的查询
- **调试**:查询涉及特定错误或不正确输出

相似文章

Skill-RAG:通过隐层状态探测和技能路由的故障感知检索增强

arXiv cs.CL

Skill-RAG 是一个故障感知的 RAG 框架,利用隐层状态探测和技能路由来诊断和纠正检索增强生成中的查询-证据不对齐问题。该方法检测检索失败并有选择性地应用目标技能(查询重写、问题分解、证据聚焦)以提高硬案例和分布外数据集的准确率。

为什么检索增强生成会失败:图视角

arXiv cs.CL

本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。