嘿,Chat,你能教我吗?面向人类现实学习的苏格拉底式对话结构化

arXiv cs.CL 论文

摘要

本文提出了一种系统,将先验知识图谱与基于PPO的策略相结合,以结构化LLM的苏格拉底式辅导,实验表明,在学生的掌握程度和效率上,该系统优于启发式方法和前沿模型基线。

arXiv:2606.11744v1 公告类型:new 摘要:大型语言模型现已广泛用于日常学习,但背后的交互通常是无结构的聊天,而非遵循课程计划。与正式的在线学习系统不同,这些交互没有学生的先验记录,因此对学生已有知识的任何估计都必须从对话本身推断。我们表明,仅靠扩大模型规模无法弥补这一差距。前沿模型和经过教育调优的LLM在长时间辅导学生时表现不佳,因为这需要同时完成三件事:辅导者必须安排课程顺序、进行苏格拉底式对话,并从对话中推断学生的知识状态。我们提出将这些职责分离。给定学生查询,我们的系统构建一个先验知识图谱,其中子主题为节点,依赖关系为边,并将辅导任务定义为决定下一个教学节点以及在该节点上花费多少轮对话。一个轻量级的PPO策略处理这个顺序决策,而LLM则在所选节点进行苏格拉底式交流并返回学生进展信号。在保留的STEM和非STEM主题上,我们的PPO配对辅导器优于启发式基线、前沿通用模型以及专为苏格拉底式对话优化的模型:无论是在学生达到完全课程掌握的速度上,还是在所需对话轮次上。显式的课程结构带来了单纯扩大基础模型无法实现的增益。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:41

# 嘿,聊天机器人,能教教我吗?在真实场景中构建促进人类学习的苏格拉底式对话结构

来源:https://arxiv.org/html/2606.11744

Sidney Tio  
新加坡管理大学 计算机与信息系统学院  
sidney\.tio\.2021@phdcs\.smu\.edu\.sg

& Arunesh Sinha  
罗格斯大学 管理科学与信息系统系  
arunesh\.sinha@rutgers\.edu

& Pradeep Varakantham  
新加坡管理大学 计算机与信息系统学院  
pradeepv@smu\.edu\.sg

###### 摘要

大型语言模型如今广泛应用于日常学习,但其底层交互通常是结构化的聊天,而非遵循课程体系。与正式的在线学习系统不同,这些交互没有预先记录的学生信息,因此对学习者已掌握知识的任何估计都必须从对话本身推断。我们表明,仅靠扩展模型规模无法弥补这一差距。前沿模型和专门为教育优化的LLM在长时间辅导学生时表现不佳,因为这需要同时满足三个条件:教师必须编排课程体系、进行苏格拉底式对话,并从对话中推断学生的知识状态。我们建议将这些职责分离。给定学生的一个查询,我们的系统构建一个先验知识图谱,其中子主题是节点,依赖关系是边,并将辅导任务定义为决定接下来教授哪个节点以及在该节点上花费多少轮对话后再继续。一个轻量级的PPO策略处理这个排序决策,而LLM则在所选节点上进行苏格拉底式交流,并返回学生进展的信号。在保留的STEM和非STEM主题上,我们的PPO配对教师优于启发式基线、前沿通用模型以及专门用于苏格拉底式对话的模型——无论是在学生达到完全掌握课程的速度上,还是在所需的对话轮次数量上。明确的课程结构带来的收益是单纯扩展底层模型所无法实现的。

## 1 引言

大型语言模型(LLM)助手(如Claude和ChatGPT)越来越成为人们在课堂之外学习的媒介。学习和求知合计约占消费者ChatGPT对话的30%至40%(Chatterji et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib1));教育是Claude上的第二大任务类别(Handa et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib2); Bent et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib3));2023年至2024年间,使用ChatGPT完成学校作业的美国青少年比例从13%翻倍至26%(Sidoti et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib4))。与教科书或搜索引擎不同,LLM可以进行对话、回答后续问题并动态调整其解释,这使其成为自主学习的天然工具,因此有必要直接检验它实际上在这方面的表现如何。

参考图注

图1:基于RL的辅导系统概览。
左侧:学生的查询被分解为一个先验知识图,并用于跟踪课程进度。
中间:RL辅导策略根据与学生的交互历史选择下一个要教授的主题。
右侧:由此产生的苏格拉底式对话的一轮,其中教师提出一个问题,学生回答,并对答案进行评估。

我们在真实场景中的自主学习背景下研究这个问题:用户通过LLM聊天界面发起一个会话,并询问他们想了解的某个问题,没有教学大纲、没有教师设计的序列,也没有学生的先前记录。唯一可用的信号是对话本身,一个好的教师必须利用它同时做两件事:以尊重概念间先决关系的方式顺序呈现内容,并弄清学生当前所处的位置,以便调整内容而非进行固定不变的讲解。

越来越多的研究致力于如何让LLM成为更好的教师。像LearnLM(LearnLM Team, 2024 (https://arxiv.org/html/2606.11744#bib.bib5))这样的系统提高了单个概念解释的质量,使交付更具教学性和响应性,但将每次交互视为独立的,不推理接下来应该教授哪个概念,也不维护一个关于学生在整个会话中已掌握和未掌握内容的模型。另一条研究路线训练模型从学习者那里引出推理过程,而不是直接提供答案(Dinucu-Jianu et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib10); Liu et al., 2024 (https://arxiv.org/html/2606.11744#bib.bib9))。这解决了内容如何交换的问题,但同样没有处理课程结构。这些努力中的很大一部分是在数学问题求解上进行评估的(Zerkouk et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib31)),其成功与否很容易判断,因为学生要么解决了保留问题,要么没有。这种框架在自主学习环境下有两个方面让人不舒服。首先,开放式学科(如人文学科)并不归结为一个最终的数字答案(Garcia and Weilbach, 2023 (https://arxiv.org/html/2606.11744#bib.bib32); Favero et al., 2024 (https://arxiv.org/html/2606.11744#bib.bib34))。其次,更重要的是,数学基准不需要教师推理课程结构或仅从对话中推断学生状态,因为问题本身已经提供了范围。为了解决这个问题,我们采用苏格拉底式辅导,即教师通过提问而非直接讲解来探查学生的理解。这样可以揭示误解,促使学生构建自己的推理(Shridhar et al., 2022 (https://arxiv.org/html/2606.11744#bib.bib22)),并产生自主学习实际看起来的那种开放式交流——跨越不同学科,而不仅仅是有明确数值答案的学科。

给定学生的一个查询,我们的系统构建一个先验知识图,其中查询作为目标节点,支持概念作为祖先节点。课程交付变成了一个图遍历问题,其中辅导策略决定接下来教授哪个节点,目标是最大化对目标的掌握程度。决定接下来教什么和实际教什么需要不同类型的推理,因此我们将它们视为分离的问题。排序问题由经过强化学习(RL)训练的轻量级策略处理,而对话问题则由LLM处理,它在每个选定节点进行苏格拉底式交流,并返回一个掌握程度估计,排序策略据此决定下一步行动。为了可扩展性,我们使用LLM作为学生模拟器;我们的重点是LLM在非结构化环境中的辅导行为,以及它在获得结构时利用结构的能力。我们在STEM和非STEM主题图的混合体上评估了这种设计,发现学习到的排序策略与辅导LLM配对后,优于启发式基线和仅LLM的教师,包括前沿通用模型和专门用于苏格拉底式对话的模型。图1 (https://arxiv.org/html/2606.11744#S1.F1) 提供了概述。

我们的贡献如下:

*   我们将非正式的基于LLM的教育形式化为一个新任务:任意学生查询被分解为一个先验知识图,教师必须仅通过对话作为其状态的证据来引导学生完成该图。
*   我们为此任务发布了一个符合Gymnasium标准的环境(Towers et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib27)),涵盖STEM和非STEM领域,支持长时段评估,超越了先前工作中短期的、以数学为重点的交互。
*   我们提出了一个双组件系统,将课程排序与对话生成分离,包括用于节点选择的轻量级策略和用于苏格拉底式教学的LLM教师。
*   我们证明,前沿和专门针对辅导的LLM单独使用时会在此任务上表现挣扎,而一个与辅导LLM配对的轻量级近端策略优化(PPO)策略则能够弥合这一差距。

## 2 相关工作

### 2.1 辅导语言模型

越来越多的工作训练或提示LLM充当数学问题上的教师。这些努力共享一个结构:教师通过对话引导学生解决单个问题,通常使用RL(Dinucu-Jianu et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib10); Wei et al., 2026 (https://arxiv.org/html/2606.11744#bib.bib28)),并根据模拟学生在求解前后的正确率提升以及手工制作的教学质量(如不直接给出答案、识别不正确的回答或提供好的解释)的组合来获得奖励(Liu et al., 2024 (https://arxiv.org/html/2606.11744#bib.bib9); Scarlatos et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib11))。会话通常限制在16到20轮,反映了单问题的框架(Nam et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib13))。这种设置在将学习简化为解决一个可验证的问题时效果很好,但它以两种方式限制了教师在日常学习中的作用:对可验证正确答案的依赖排除了理解是开放式的领域,而短时间窗口排除了深度学习所需的扩展会话。我们的设置去除了这两个约束。我们对来自STEM和非STEM学科的任意主题进行辅导,其成功不能归结为解决特定问题,并且我们评估的会话窗口长达一百轮,以反映自主学习的较长脉络。

LearnLM(LearnLM Team, 2024 (https://arxiv.org/html/2606.11744#bib.bib5))是一个大型预训练模型,它将高质量的教学对话纳入其训练数据,并通过专家偏好比较(与其他模型在教学品质上的比较)进行评估(LearnLM Team, 2025 (https://arxiv.org/html/2606.11744#bib.bib6))。对LearnLM的评估集中于主观专家判断,并未直接探查模型是否能执行辅导成功所必需的任务,如课程跟踪和估计学生知识状态。Worden et al. (2026 (https://arxiv.org/html/2606.11744#bib.bib12)) 报告称,前沿模型在几个教学子任务上表现不佳,包括认知状态建模和比较题目难度,这表明主观偏好分数可能无法转化为辅导所需的结构化能力。我们的工作通过使课程跟踪和能力评估成为明确目标,并通过评估当前模型(包括LearnLM)在它们条件下交付内容的能力,为此做出了贡献。

### 2.2 知识图谱、知识追踪与路径推荐

第二条研究路线使用知识图谱来编码学习内容之间的先决条件和主题关系(Doroudi et al., 2019 (https://arxiv.org/html/2606.11744#bib.bib17); Chang et al., 2015 (https://arxiv.org/html/2606.11744#bib.bib18); Siren and Tzerpos, 2022 (https://arxiv.org/html/2606.11744#bib.bib19)),并将其与知识追踪(KT)配对,KT是一项根据学生过去回答的历史来预测其未来项目正确性的任务(Piech et al., 2015 (https://arxiv.org/html/2606.11744#bib.bib29); Lee et al., 2026 (https://arxiv.org/html/2606.11744#bib.bib21))。最近的系统将KT与RL结合,推荐能够最大化预测收益的下一个项目或学习路径,并且一些系统已经开始将LLM集成到流程中,例如仅从文本中用知识组件标记项目(Ozyurt et al., 2025 (https://arxiv.org/html/2606.11744#bib.bib16))。这些方法假设我们没有的一种环境。它们建立在在线学习平台的交互日志之上(例如,Worden et al. (2026 (https://arxiv.org/html/2606.11744#bib.bib12)); Chang et al. (2015 (https://arxiv.org/html/2606.11744#bib.bib18))),这假定学生是在固定项目池上的回访用户,并且它们将评估简化为项目响应上的二元正确性,这丢弃了学生回答内容中所携带的信息(Liu et al., 2019 (https://arxiv.org/html/2606.11744#bib.bib15))。这两个假设在我们的设置中都失效了。学生到来时没有先前的日志,课程是在查询时构建的,而唯一的诊断信号就是对话本身。这些差异促使我们需要一个能够按需构建课程结构、并通过自然语言而非记录的项目响应来推理学生状态的教师。

### 2.3 学习科学的基础

教育心理学的三个发现塑造了我们系统的设计。首先,要求学生推理中间步骤而非产生最终答案的辅导系统,其有效性接近人类专家辅导(VanLehn, 2011 (https://arxiv.org/html/2606.11744#bib.bib35)),这激励我们使用苏格拉底式对话而非直接讲解。其次,内容排序决定了学生是否具备先决知识以便建设性地参与新材料(Chi and Wylie, 2014 (https://arxiv.org/html/2606.11744#bib.bib36)),这就是我们将课程排序视为核心问题的原因。第三,要求学生在不确定性下产生回答的形式比更被动的教学形式能改善长期记忆(Bjork and Bjork, 2011 (https://arxiv.org/html/2606.11744#bib.bib38)),并且有证据表明结构排序决策在很大程度上独立于对话方式(Litman et al., 2006 (https://arxiv.org/html/2606.11744#bib.bib37)),这支持将两者视为可分离的组件。

## 3 问题设置

#### 问题设置。
有效的辅导需要同时解决两个不同维度。第一个是课程维度:对任何主题的完整理解都依赖于以特定方式相互依赖的子主题,教师必须枚举这些子主题及它们之间的先决条件。第二个是诊断维度:教师必须评估学生已经知道什么。考虑一个学生提出查询 q = "我想了解更多关于关税和制裁的内容"。一位经济学学生可能理解比较优势和贸易平衡,但难以将它们与作为地缘政治工具的制裁联系起来。一位熟悉关税表和供应链中断的企业主可能缺乏理论基础来推理它们的宏观经济根源和影响。两位学生提出相同的查询,但需要不同的教学序列。遇到任意学生的LLM教师自然地解决了课程维度:利用预训练期间编码的知识来枚举与q相关的子主题及它们之间的依赖关系。诊断维度更难。学生的知识状态是私有的,只能通过对话来揭示。忽略这一点的课程会按固定顺序进行,重复教授学生已经知道的内容,并跳过识别真正差距所需的工作。

我们将教师的任务定义为将对话轮次的预算分配给课程中的子主题:在学生需要学习最多的地方花费更多轮次,在能力已经具备的地方花费更少轮次。我们使用苏格拉底式对话作为交互方式,将课程排序视为一个学习到的决策,并将排序决策与对话本身分离。

#### 知识图谱。
给定一个查询q,语言模型生成一个表示课程的有向无环图 G = (V, E)。每个节点 v ∈ V 代表一个需要学习的子主题。每条有向边 (u, v) ∈ E 表示 u 是 v 的先决条件(即,

相似文章

SocraticPO:通过交互式指导的策略优化

arXiv cs.LG

SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。

利用课程先决条件图从对话式AI交互中检测知识缺口

arXiv cs.CL

该论文提出了一种流水线,利用少样本文本分类器和GPT-4提取的先决条件知识图谱,将学生在对话式AI助教中提出的问题映射到课程主题。在1,340个问题事件上实现了80%的准确率,并与学生自我报告的难度相关。

面向法律探究型对话代理的双层次对话策略学习

arXiv cs.CL

介绍了一种用于法律对话中主动信息提取的探究型对话代理(ICA),提出了一个双层次强化学习框架,该框架学习何时以及如何提出探测性问题,并在美国最高法院口头辩论数据上进行评估。