面向即时自适应反馈:通过知识驱动的LLM提升学生学习效果

arXiv cs.CL 论文

摘要

本文提出一个框架,利用领域专家知识来引导大语言模型,根据学生的书面推理提供即时自适应反馈。在一门大规模大学课程中,该框架使学生成绩提升了超过80%。

arXiv:2605.26405v1 Announce Type: new 摘要:教育干预是提升学生学习的有效工具。虽然大语言模型(LLM)能够大规模生成自适应反馈,但当前研究缺乏在真实教学环境中提供即时(JiT)反馈的明确方法。本文提出一个框架,通过领域专家知识来引导LLM,从而提供自适应反馈。我们的方法收集学生的书面推理逻辑(策略论文),根据推理内容分析潜在错误类型,并提供非侵入式反馈以澄清缺失或错误的概念。我们在一个大规模大学课程(N>1000)中部署该框架,与前几个学期相比,学生成绩提升了超过80%。最后,我们通过分析学习轨迹验证了该框架的教学效用;我们展示了与LLM的迭代对话如何帮助学生将错误观念转变为正确理解。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:04

# 即时自适应反馈:基于知识增强的大语言模型促进学生学习的框架

来源:https://arxiv.org/html/2605.26405
## 即时自适应反馈:基于知识增强的大语言模型促进学生学习的框架

Younghun Lee†, Amir Bralin‡, Nobel Sanjay Rebello‡§, Dan Goldwasser†  
†计算机科学系 ‡物理与天文学系 §教育学院  
普渡大学  
{younghun,abralin,rebellos,dgoldwas}@purdue.edu

###### 摘要

教育干预是促进学生学习的重要工具。虽然大语言模型(LLM)可以规模化生成自适应反馈,但现有研究缺乏在真实教学环境中提供即时(Just-in-Time, JiT)反馈的清晰方法论。本文提出一个框架,通过将LLM与领域专家知识相结合来实现自适应反馈。我们的方法收集学生书写的推理逻辑(策略短文),根据推理内容分析潜在错误类型,并生成非侵入式反馈,旨在澄清缺失或错误的概念。我们在一个大规模大学课程(N > 1,000)中部署该框架,与以往学期相比,学生表现提升超过80%。最后,通过分析学习轨迹验证该框架的教学效用;我们展示了与LLM的迭代对话如何促进学生从错误概念向正确理解的转变。

即时自适应反馈:基于知识增强的大语言模型促进学生学习的框架

Younghun Lee†, Amir Bralin‡, Nobel Sanjay Rebello‡§, Dan Goldwasser†  
†计算机科学系 ‡物理与天文学系 §教育学院  
普渡大学  
{younghun,abralin,rebellos,dgoldwas}@purdue.edu

参见图注1:我们的即时自适应反馈LLM整体框架。第一阶段,我们从人类专家那里获取领域知识,包括针对学生策略短文的合适反馈以及学生所犯的错误类型。部署时,我们利用这些知识对LLM进行知识增强,并根据学生书写的策略短文向他们提供自适应反馈。

## 1 引言

在STEM教育中,学生常被观察到陷入“递归套公式”(也称为“找公式”),其目的仅仅是填充公式中的空位,而非理解问题本身(Chi et al., 1981;Tuminaro and Redish, 2007)。现有研究表明,专家基于深层逻辑结构和原则分析问题,而新手往往关注表面特征,导致低效的解决问题方法(Mestre et al., 1993)。

策略写作已成为应对这一问题的有力干预手段。研究表明,要求学生阐述解决问题的策略可以提升其问题解决能力(Leonard et al., 1996)。通过结合论证和适当的提示,学生更关注问题的深层结构而非表面特征,并开始通过概念分析来解决问题,避免新手式、低效的策略(Dufresne et al., 1992;Mestre et al., 1993;Docktor et al., 2010;Rebello and Piedrahita Uruena, 2019)。

尽管策略写作有诸多益处,但大规模实施存在困难。主要障碍是反馈瓶颈。反馈最有效时是将其通过形成性评估融入学习过程(Hattie and Timperley, 2007),并在完成之前提供(Henderson et al., 2021)。然而,为成千上万名学生提供实时、形成性反馈对教师来说耗时巨大。因此,策略写作提升学生学习的真正潜力尚未充分实现。生成式大语言模型(LLM)的进步为克服规模化瓶颈提供了有希望的途径。最近的研究提出了利用LLM帮助学生理解课程材料的自适应支架框架(Taneja et al., 2024;Kweon et al., 2025;Kestin et al., 2025;Zhang et al., 2025)。然而,这些研究缺乏对干预导向交互的探索,也缺乏将模型与领域特定知识相结合的方法。

在本文中,我们通过探索自适应反馈的多个维度并实现一个利用知识增强LLM提供即时干预的框架,来应对这些挑战。首先,我们收集学生多个学期的策略短文,并获取将短文与学生所犯错误类型相关联的历史数据。然后,人类专家根据短文内容和错误类型,对一小部分数据标注反馈。利用这些标注实例作为少量样本,LLM识别策略短文中的错误概念并提供实时、自适应反馈。反馈并不提供正确答案的“捷径”,而是引导学生关注底层概念及其推理逻辑(示例见图4和图7)。这确保干预打破“找公式”的启发式思维,让学生反思问题的深层结构。图1展示了我们提出的整体框架。

我们在一个大规模大学物理课程(N > 1,000)上实验该框架。实验结果显示,部署反馈框架后,学生整体表现相比以往学期提升超过80%。基于自我报告调查和对话实例的进一步分析,我们认为该框架有效促进了从初始错误概念向正确理解的转变。

## 2 相关研究

教育研究表明,反馈是学习的重要驱动力之一(Wisniewski et al., 2020;Foster, 2024)。反馈可以通过缩小实际表现与期望表现之间的差距,促进学习者在理解和技能上的提升(Henderson et al., 2021;Burgess et al., 2020)。反馈的有效性与其包含的信息量成正比。先前研究(Kluger and DeNisi, 1996)也表明,时机、具体性和任务复杂度等调节因素会影响学习者接收和使用反馈的方式(Hattie and Clarke, 2018;Brooks et al., 2019)。

反馈需要足够详细(Price et al., 2010)、可用(Winstone et al., 2017),并能促使变化(Ryan et al., 2016),以便学习者能够检验新的理解(Pitt and Norton, 2017)。在异步和孤立的在线环境中(Orlando, 2016),互动对话尤其有用(Wolsey, 2008),因为学生难以与同伴互动(Furnborough and Truman, 2009),这使得他们收到的反馈评论具有重大意义(Ortiz-Rodríguez et al., 2005)。

近年来,教育领域的LLM应用从通用辅助转向专门干预。例如,Phung et al.(2024)使用GPT-4作为教师提供非侵入式提示,但依赖更弱的LLM(GPT-3.5)模拟学生代理人,而非应用于真实课堂。相反,Dai et al.(2023)和Jia et al.(2024)设计了应用于学生的LLM反馈,但其评估指标侧重于学生报告的有用性调查和反馈内容的定性分析,而非衡量学生实际表现的提升。更近期的研究表明,LLM生成的反馈可以帮助提高学生在课堂中的表现。Hashmi and Rebello(2025)使用基于LLM的苏格拉底式聊天机器人来搭建专家式推理支架。Zhang et al.(2025)实现了一个角色驱动的多智能体对话系统,表明随着学生与LLM的交互增加,其解决问题的能力也有所提升。Kestin et al.(2025)在大学物理课程中集成AI导师,并将学生在测验中的表现与课堂课程进行对比。结果表明,当模型应用于200人的班级时,AI导师的学习收益几乎是课堂课程的两倍。

本文引入三项新贡献。与容易被学生“找公式”行为影响的反应式聊天机器人不同,我们的系统主动分析策略短文中的推理逻辑,引导学生集中关注解决测验问题的深层结构。此外,我们利用人类专家仔细标注的领域特定知识对LLM进行知识增强,这比基于角色的提示工程带来显著优势。最后,我们提供一个稳健的、自动化的干预措施,在大规模(N > 1,000)下依然保持教学上的合理性。

## 3 问题形式化

### 3.1 教学环境

我们的研究背景是美国中西部一所大型赠地大学为工程师和物理科学学习者开设的大规模微积分基础物理课程。该课程的重点是培养解决问题的能力,专注于应用与力学相关的关键物理原理,涵盖三个单元:牛顿定律与线性动量、功与能量、角动量。该课程年注册人数约为3,300名学生(秋季1,500人,春季1,800人),其中约25%为女性,10%为代表性不足的少数族裔,8%为国际学生。

每周,学生完成一次通过学习管理系统进行的在线测验,并配合在线监考系统以维护诚信。学生有40分钟完成每次在线测验。本研究中,我们聚焦于从2024年秋季到2026年春季连续四个学期的测验数据。

### 3.2 策略短文

策略短文是指学生在解决测验问题时书写的推理逻辑(Leonard et al., 1996)。对于其中一个测验问题,学生被要求撰写至少50个单词的策略短文,且不包含任何数字、符号或公式。此举旨在评估学生书面推理逻辑与测验表现之间的一致性。为维持短文质量,教师提供额外加分¹¹来鼓励撰写策略短文。例如,在2024年秋季学期,我们从1,418名学生中收集了11,948篇短文,涉及总共11次测验。

¹¹额外加分为测验总分的10%。

### 3.3 LLM反馈的理想属性

LLM反馈是指LLM生成并给予每位学生的文本。其主要目的是帮助学生更好地理解与测验问题相关的课程材料,并正确解决问题。

提供反馈时最关键的限制之一是 **促进学生自身的问题解决过程**。LLM在生成反馈时不应泄露测验问题的直接解法或正确答案。在设计反馈时我们考虑的另一个方面是 **适应性**:反馈不是通用的,而是根据学生特定特征,如课堂表现(例如学期初评估分数、期中考试成绩、其他测验分数等)和策略短文进行条件生成。最后,我们专注于**对LLM进行领域特定知识的知识增强**。通用LLM在理解需要多步逻辑的大学STEM课程方面往往表现出不可靠的性能(Arora et al., 2023;Pang et al., 2025)。为缩小这一知识差距,我们从专家(即教师)那里提炼领域特定知识,并以此为基础对LLM的生成进行约束。

### 3.4 事后反馈 vs. 即时反馈(JiT)

LLM反馈可以通过两种方式呈现给学生:在学生完成测验之后(事后)以及在他们解决测验问题的过程中实时提供(即时)。这两种方法各有不同益处。本文中,我们主要利用LLM事后反馈来调查学生对反馈风格的偏好。学生的偏好模式最终有助于确定如何生成LLM反馈。我们将LLM即时反馈视为实时干预的手段,帮助学生解决测验问题。

## 4 设计自适应反馈

参见图注2:关于两次测验中学生对新手级和高级反馈偏好的调查结果。无论知识水平如何,学生都更喜欢针对新手群体的LLM反馈。

### 4.1 学生偏好调查

现有研究表明,需要与学生知识水平相匹配的自适应指导;与新手学生在详细解释下表现更好不同,经验更丰富的学习者认为这些解释多余,甚至产生负面后果(Kalyuga, 2007;Walker et al., 2012;Albacete et al., 2019)。由于目前缺乏研究验证这一发现是否适用于基于LLM的反馈,我们进行了一系列调查,以探究不同知识水平的学生是否对LLM反馈的复杂度表现出相反的偏好。

我们在2025年秋季学期的两次测验中向学生提供事后LLM反馈。学生需要撰写简短的策略短文,说明他们解决问题所采用的方法。收集到学生的策略短文后,我们提示LLM生成两个不同版本的反馈,一个针对新手级别,另一个针对高级级别。LLM被指示不仅在语气、词汇等语言风格上进行区分,还要根据焦点和目标对反馈进行框架设计²²。

²²我们使用GPT-5.1生成事后反馈。详细提示设置见附录A。学生被指示参与该项调查。

相似文章

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。

学习,快与慢:走向持续适应的LLMs

Hugging Face Daily Papers

一种针对LLMs的快慢学习框架,将固定的慢权重与优化的快上下文权重相结合,在持续学习场景中实现了高达3倍的样本效率提升,并减少了灾难性遗忘。