利用AI实现与结果无关的师生反馈调解以揭示孤立学习者
摘要
本文针对AI增强型课堂提出了一种可解释的决策层,通过结合教师和学生反馈,在不使用成绩的情况下对需要关注的课程主题进行排序。该方法能够揭示孤立学习者,并在初步研究中与教师关注点保持一致。
arXiv:2605.29240v1 公告类型:新
摘要:AI增强型课堂在可获得评分结果之前会产生丰富的教师和学生反馈,但这些信号往往难以转化为及时的 instructional 决策。我们提出了一种可解释的决策层:一种透明的机制,在不使用成绩或事后结果标签的情况下,对需要关注的课程主题进行排序。该方法结合了三种信号:学生学习困难普及度、学习者自我报告与观察到的困难之间的不一致,以及未解决的教师关切。输出结果是一组按优先级排序的主题,并附有每个主题的决策记录以解释排序。在一门研究生计算机科学课程中($n=5$ 次教师访谈;$n=279$ 份调查回复),优先排序的主题与教师关注点一致(前5重叠3/5;斯皮尔曼 $\rho=0.80$),也与学生报告的主题难度一致($\rho=0.46$,$p=.048$)。多信号整合还揭示了仅通过单一信号源无法识别的学习者(AUC = 0.96,而仅通过差距普及度为 0.91)。反思性思维、求助行为和自我效能感提供了额外证据,表明学生行为信号与学习相关构念一致。尽管初步,这些发现表明,当反馈不完整时,透明的协调机制可能有助于支持人机协同作用。
查看缓存全文
缓存时间: 2026/05/29 09:15
# 使用AI在师生之间进行结果无关反馈中介以发现孤立学习者 来源:https://arxiv.org/html/2605.29240 \copyrightclause 本文版权归作者所有。允许在知识共享署名4.0国际许可(CC BY 4.0)下使用。 \conference HAI-Agency:面向主动与反思学习的人机协调工作坊,与第27届人工智能教育国际会议(AIED 2026)同期举行,韩国首尔,2026年6月27日至7月3日。 \[ orcid=0009-0003-4450-0103, [email protected], \] \[ [email protected], \] \[ [email protected], \] \[ orcid=0009-0000-5993-1094, [email protected], \] \[ orcid=0000-0003-4043-0614, [email protected], \] \cortext \[1\]通讯作者。 Youssef Medhat · Htet Phyo Wai · Ploy Thajchayapong · Ashok K. Goel 佐治亚理工学院,美国佐治亚州亚特兰大市North Avenue,邮编30332 (2026) ###### 摘要 AI增强型课堂在评分结果可用之前便生成了丰富的师生反馈,然而这些信号往往难以转化为及时的的教学决策。我们提出一种*可解释决策层*:一种透明机制,在不使用成绩或事后结果标签的情况下,对需要关注的课程主题进行排序。该方法结合了三种信号:学生学习困难普遍性、学习者自我报告与观察到的困难之间的不一致性,以及未解决的教师关切。输出是一组带有主题优先级排序的列表,以及针对每个主题的解释其排序理由的决策记录。在一门研究生计算机科学课程中(\(n=5\)次教师访谈;\(n=279\)份调查回复),排序后的主题与教师关切(前5重叠3/5;Spearman \(\rho=0.80\))以及学生报告的主题难度(\(\rho=0.46\),\(p=.048\))保持一致。多信号整合还发现了仅通过单一信号源无法识别的学习者(AUC=0.96 vs. 仅用困难普遍性的0.91)。反思性思维、寻求帮助和自我效能感提供了额外证据,表明学生行为信号与学习相关构念是一致的。尽管结果尚属初步,但这些发现表明,在反馈不完整的情况下,透明协调机制可能有助于支持人机协同。 ###### 关键词: 人机协同 \sep 双向反馈循环 \sep 基于过程的评估 \sep 可解释决策层 \sep AI增强型课堂 ## 1 引言 AI助教正越来越多地应用于真实课堂。教师和学习者生成了丰富的信息源:访谈、调查和交互日志,但这些信号难以整合为清晰的教学行动\[hattie2007power, tomlinson1999differentiated, bernacki2021systematic, plass2020toward\]。评分结果往往来得太晚,无法支持学习过程中的决策。因此,我们提出这样一个问题:*当结果数据不可用时,如何协调师生反馈?* 我们提出一种*可解释决策层*:一种透明机制,结合教师和学生反馈对需要关注的课程主题进行排序。该方法不依赖成绩或结果标签,而是基于三种信号:i) 学生中出现某种学习困难的普遍程度(困难普遍性),ii) 学习者自我报告与观察到的困难之间的不一致性,以及 iii) 未解决的教师关切。这些信号被整合为排序后的主题优先级,并附有*决策记录*,解释每个主题获得其排序的原因。该系统围绕这一共享决策过程组织教师、学生和研究人员角色。在一门研究生计算机科学课程中(\(n=5\)次教师访谈;\(n=279\)份调查回复),排序后的主题与教师关切和学生报告难度一致(第5节)。反思性思维、寻求帮助和自我效能感与主题理解为学习相关行为提供了互补证据\[kember2000rtq, bandura2006guide\],而结合多个信号则发现了单源方法遗漏的学习者。 **定义。** **主题**。表示课程概念的知识图谱节点(例如,规划、类比推理);本次课程包含54个主题和47个前提链接(附录B)。 **困难普遍性 \(R_t\)**。被识别为对主题t有困难的学生比例。 **调查分歧 \(D_t\)**。观察到的主题难度与学生自我报告难度之间的差异:当调查难度\(s_t\)可用时为\(|R_t - s_t|\)(公式1)。 **教师摩擦度 \(F\)**。从编码访谈主题中得出的未解决教师关切的综合度量(附录F)。 **中介层**。结合\(R_t, D_t, F\)得到主题优先级分数\(P_t\)和排序(公式2)。 **决策记录**。每个主题的输入、分数、排序和诊断信息。图1使用了同义标签“决策轨迹”。 **孤立学习者**。未被任何单一信号源识别,但通过综合考虑多个信号而被发现的学习者。 **研究问题与假设。** **RQ**:透明决策层能否在不依赖成绩或其他结果标签的情况下,结合师生反馈来识别有用的支持优先级? **H1**:中介层产生的可解释主题优先级在合理的权重选择下保持相似。 **H2**:学生的行为信号,如反思性思维和寻求帮助,在队列层面与学习相关度量相关联。 **H3**:结合多个信号能够识别出单独任何单一信号都无法识别的学习者。 ## 2 相关工作 #### 教师编排与反思。 先前的工作强调了在AI增强课堂中需要教师*编排*,以及帮助教师理解学习者活动并做出教学决策的界面\[holstein2019complementarity, hershkovitz2024instructors, cai2025aipoweredreflection\]。开放且可检查的学习者模型进一步强调了教育AI系统中透明度的重要性\[bull2016smili\]。我们的工作建立在这些理念之上,着重于一个可解释的协调过程,其中主题优先级可以追溯其贡献信号。与专注于事后分析或仅看板反思的方法不同,我们考虑了在教学过程中,当结果度量尚不可用时,如何结合教师和学生的视角。 #### 学生建模:反思与寻求帮助。 学生的反思和寻求帮助行为被广泛认为与学习过程和自我调节学习相关。我们借鉴了反思性思维问卷(RTQ)\[kember2000rtq\],该问卷基于Mezirow对反思与批判性反思的区分\[mezirow1991transformative\],并结合了讨论板上的寻求帮助行为以及自我效能感度量\[bandura2006guide\]。在本工作中,这些构念作为补充证据,表明学生信号捕捉了与学习相关的行为,而非直接决定中介优先级。 #### 知识图谱学习者建模。 知识图谱方法表示概念之间的关系以及学习者在主题层面的理解。A4L中的先前工作提取了课程知识图谱和主题级学习者表示\[goel2025a4l\]。我们使用该流程得出的主题级困难普遍性,作为中介过程中的一个证据来源。 #### 人机协同与反馈协调。 像Jill Watson这样的AI助教展示了AI系统如何参与课堂互动\[goel2018jill, taneja2024jill, kakar2024jill\]。最近关于双向反馈和人机协作的工作表明,课堂支持可以受益于整合多个参与者的视角,而非仅依赖单一信息来源\[basu2025bidirectional, park2025human, park2026evaluating\]。我们的工作探讨了如何在课堂流程中通过一个共享的、透明的决策层来协调教师、学生和研究人员的视角。 ## 3 方法 我们的方法围绕一个共享的中介层来组织教师、学生和研究人员角色,该中介层协调整个课堂过程中的反馈(图1)。教师信号来源于教师使用已部署的Jill Watson分析仪表盘(附录A):仪表盘的观察结果用于半结构化访谈,访谈内容被编码为主题并总结为教师摩擦度\(F\)。学生信号来源于Jill Watson交互轨迹和一次期中调查,得出困难普遍性\(R_t\)、自我报告难度\(s_t\)以及调查分歧\(D_t\)。研究人员定义的权重\(\mathbf{w}\)决定这些信号如何贡献于主题优先级和决策记录。 参见说明图1:双向反馈中介器。教师和学生子系统向中介层提供信号,中介层产生主题优先级和决策记录。当前实现中,研究人员权重是指定的而非学习得出的。优先级估计时不使用评分结果。 ## 4 方法 #### 参与者与数据。 教师数据包括五份半结构化访谈,这些访谈是在佐治亚理工学院研究生级别的AI课程中\[goel2017using\],经过(IRB批准的)共设计和部署Jill Watson分析仪表盘后进行的\[goel2025a4l, thajchayapong2025evolution\]。学生数据包括期中问卷调查回复(\(n=279\)),是在标准学习分析同意下收集的。假名化标识符将主题跨数据源连接起来。未使用成绩和人口统计信息。 ### 4.1 教师、学生和研究人员角色 #### 教师。 访谈记录被分段并使用包含12个主题的代码手册进行编码(附录F)。编码后的主题被总结为中介层使用的教师信号。教师摩擦度\(F\)计算为所有编码片段中可用性摩擦和信任不确定性主题的比例(本次课程\(F=0.220\))。 #### 学生。 Jill Watson问题被映射到课程主题并分析潜在学习困难,这些困难被聚合为队列层面的困难普遍性\(R_t\)。调查回复映射到相同主题,并提供自我报告难度\(s_t\)(附录C和D)。RTQ、寻求帮助和自我效能感度量仅用于验证,不直接贡献于优先级分数\(P_t\)。 #### 研究人员。 权重\(\mathbf{w}=(0.70, 0.20, 0.10)\)反映了共设计会议期间确定的优先级:对学生学习困难的重视程度更高,其次是不一致信号和教师关切。替代权重产生了相似的排序(附录H)。 #### 中介。 调查分歧计算为 \[ D_t = \bigl\| R_t - s_t \bigr\| \] 当调查难度\(s_t\)可用时;否则\(D_t=0\)。然后计算主题优先级为 \[ P_t = w_r R_t + w_d D_t + w_f F \] 其中值越高表示教学优先级越高。主题按\(P_t\)排序,中介层生成一个主题表以及每个主题的决策记录(附录G)。 ## 5 验证 由于中介层旨在支持决策而非预测结果,我们评估了排序后的主题优先级是否与来自教师和学生的独立证据一致。我们报告了来自同一课程授课的三个互补性检查;这些旨在作为描述性和探索性证据,而非预测性能声明。 #### 教师一致性。 五次访谈产生了41个编码片段,通过主题-话题映射表映射到主题(附录F)。在排名前五的中介主题中,有三个与教师识别的关切主题重叠(例如,类比推理、规划、基于知识的AI)。中介优先级与教师关切水平之间的排序一致性很高(Spearman \(\rho=0.80\),\(p<.001\),\(n=19\)个有调查数据的主题)。鉴于访谈数量较少,我们将此解释为描述性证据,表明中介器能够浮现出教师已经认为重要的主题。 #### 学生一致性。 自我报告的主题难度\(s_t\)(来源于Q5主题项目)提供了独立的学生方面的比较。主题优先级\(P_t\)与自我报告难度中度相关(\(\rho=0.46\),\(p=.048\),\(n=19\)),而仅用困难普遍性的相关性较弱(\(\rho=0.29\),\(p=.23\))。这表明较高优先级的主题与学习者报告的难度更为一致,且不依赖成绩或结果标签。 #### 多信号整合。 不一致信号\(D_t = |R_t - s_t|\)在观察到的学习困难与学生自我报告存在差异时提高了优先级。移除这一项后,前五主题保持不变,但与默认排序的一致性降低(\(\rho=0.96\);附录H)。对于孤立学习者(即未被任何单一信号源识别的学生),在他们报告困难的几周内接触到更高优先级主题,使其排名高于对照组学生(AUC=0.96,\(n_{iso}=2\),\(n_{comp}=31\),95% CI[0.89, 1.00],置换检验\(p=.011\)),而仅用困难普遍性的AUC=0.91。尽管是探索性的,这些发现表明结合多个信号可能揭示出任何单一来源都无法看到的支持需求。 ## 6 结果 ### 6.1 主题优先级与排序稳定性(H1) 教师访谈编码得到了全局教师摩擦度\(F=0.220\)。课程知识图谱包含54个主题节点和47个前提链接。结合困难普遍性(\(R_t\))和调查分歧(\(D_t\)),这些信号产生了排序后的主题优先级和决策记录(附录G)。使用默认权重\((w_r, w_d, w_f) = (0.70, 0.20, 0.10)\),排名最高的主题是类比推理、框架、规划、基于案例的推理和基于知识的AI。替代权重设置产生了相似的排序,并保持了顶级主题的重叠(附录H),表明在合理的权重选择下优先级保持相对稳定。 ### 6.2 学生行为信号(H2) 表1:与主题理解相关的学生行为度量(\(n=279\))。其他分析见附录E。 | 构念 | 关系 | 统计量 | p值 | |------|------|--------|-----| | 自我效能感 | Q13 → Q5 | r=0.427 | <.001 | | RTQ理解 | → Q5 | r=0.369 | <.001 | | 寻求帮助(Ed) | → Q5 | r=0.168 | .005 |
相似文章
收集人类反馈
OpenAI 发布了 RL-Teacher,这是一个开源工具,可以通过人类反馈而不是手工设计的奖励函数来训练 AI 系统,应用于安全 AI 开发和复杂强化学习问题。
面向即时自适应反馈:通过知识驱动的LLM提升学生学习效果
本文提出一个框架,利用领域专家知识来引导大语言模型,根据学生的书面推理提供即时自适应反馈。在一门大规模大学课程中,该框架使学生成绩提升了超过80%。
面向AI教育中算法追踪与问题求解的检索增强型辅导
本文介绍了KITE,一个基于检索增强生成(RAG)的智能辅导系统,用于AI教育中的算法推理和问题求解。该系统采用意图感知的苏格拉底式回应策略和多模态RAG,提供基于课程内容、符合教学法的反馈,并通过指标评估、专家评审和模拟学生交互进行评价。
通过教学实现可解释的机器学习
OpenAI 提出了一种机器教学方法,其中教师神经网络学习选择最具代表性的示例来教导学生网络识别概念,通过将示例与人类可理解的特性相关联而不是任意的特征编码,产生可解释的结果。
理解人工智能与学习成果
OpenAI开发了学习成果测量套件,这是一个与塔尔图大学和斯坦福大学SCALE倡议合作创建的框架,通过纵向研究测量人工智能如何随时间影响学生学习。该套件解决了当前研究方法仅狭隘关注考试成绩的不足,并将作为公共资源向全球学校和大学发布。