学习提示:通过自适应基于LLM的高中辅导提高学生参与度
摘要
本文提出了一种自适应、学科感知的提示路由框架,用于基于LLM的高中辅导,利用14个教学特征来切换策略。对359名学生进行的A/B测试显示,与静态基线相比,效率和转化率有所提高。
arXiv:2606.20138v1 公告类型:新
摘要:LLMs可以个性化教育,尽管当前的静态提示辅导系统难以适应多样化的学科。我们开发并测试了一个具有学科感知提示的系统,该系统基于从原始记录中提取的14个教学特征(例如,教师支架、学生理解)。我们首先在模拟环境中训练一个提示路由模型,然后将其部署到实际高中生的在线适应中。模拟基准测试显示,路由器的表现优于两个静态基线($0.694$ vs $0.647$和$0.64$,$p<0.001$)。A/B测试(来自359名学生的$N=656$次对话)显示了从模拟到真实的迁移,模型从分析性学习策略切换到支架式学习策略。我们的自适应提示选择机制提高了教学效率,保持了教学质量,并减少了约3轮交互($p=0.007$)。尽管贪婪路由器的练习转化率与基线相当($19.1\%$ vs $19.6\%$),但采样策略的随机路由器的转化率更高($28.1\%$)。
查看缓存全文
缓存时间: 2026/06/20 14:35
# 学会提示:通过自适应LLM高中辅导提升学生参与度
来源:https://arxiv.org/html/2606.20138
Po\-Chin Chang 莱顿大学 &Nicholas Hogan FutureWhiz&Aske Plaat 莱顿大学&Michiel T\. van der Meer 莱顿大学
###### 摘要
LLM可以实现个性化教育,但当前基于静态提示的辅导系统难以适应不同学科。我们开发并测试了一个具有学科感知提示的系统,该系统基于从原始对话记录中提取的14个教学特征(例如,教师支架式教学、学生理解度)。我们首先在模拟环境中训练提示路由模型,然后将其部署到实际高中生中进行在线自适应。模拟基准测试显示,路由器的表现优于两个静态基线(0.694 vs. 0.647 和 0.64, p<0.001)。A/B测试(来自359名学生的N=656次对话)显示了从模拟到真实的迁移,模型从分析策略转向支架式学习策略。我们的自适应提示选择机制提高了教学效率,保持了教学质量,并将交互次数减少了约3轮(p=0.007)。虽然贪婪路由器实现了与基线相当的练习转化率(19.1% vs. 19.6%),但采用策略采样的随机路由器获得了更高的转化率(28.1%)。
## 1 引言
大型语言模型(LLM)已成为教育领域的强大工具(Gupta等,2025(https://arxiv.org/html/2606.20138#bib.bib8);Cibu等,2025(https://arxiv.org/html/2606.20138#bib.bib18)),为实现辅导系统的个性化提供了可能。然而,大多数研究仅在合成环境中验证教学效果(Nam等,2025(https://arxiv.org/html/2606.20138#bib.bib9);Dinucu\-Jianu等,2025(https://arxiv.org/html/2606.20138#bib.bib10))。虽然模拟提供了安全探索,但理想化往往忽视了现实教育中的分布偏移、数据稀疏性和复杂交互(Amodei等,2016(https://arxiv.org/html/2606.20138#bib.bib25))。
\includestandalone
\[width=\]picture/framework3
图1:辅导系统对学科特定输入XX进行编码,从教学策略池PP中选取辅导提示pp。在模拟多轮对话后,基于LLM的评估器将交互分解为14个教学标准,以计算反馈信号YY。此外,当前方法依赖静态提示(Gupta等,2025(https://arxiv.org/html/2606.20138#bib.bib8))用于单一学科(数学),但无法适应不同学科(如法语、数学或地理)。虽然自动提示工程(Zhou等,2022(https://arxiv.org/html/2606.20138#bib.bib11))试图优化指令,但它通常收敛于全局静态提示。此外,预训练语义空间常存在表征退化问题(Gao等,2019(https://arxiv.org/html/2606.20138#bib.bib29)),阻碍当前路由模型区分不同学科。为克服这些限制,我们提出一个自适应、学科感知的提示路由框架,能够跨学科调整教学策略。
然而,要成功训练和优化这样的自适应路由系统,LLM辅导系统的核心挑战在于设计一个稳健的教学质量度量标准,使自适应LLM导师能够弥合模拟的理想世界与稀疏的真实世界交互之间的差距。此外,在真实场景中,用户在与LLM导师交互后常常跳过正式练习,导致缺乏用于模型训练的即时反馈。以往工作依赖单一黑盒分数(Zheng等,2023(https://arxiv.org/html/2606.20138#bib.bib48)),而我们的LLM评估器将教学效果分解为14个基于教育理论(如支架式教学)(Wood等,1976(https://arxiv.org/html/2606.20138#bib.bib23))的可观察标准。通过将这些反馈特征与人类标签进行校准,即使在缺少显式练习分数的情况下,我们的评分函数也能作为学习者成功的可靠代理指标。
我们提出了一个基于LLM评估器反馈的学科感知自适应辅导系统(图1(https://arxiv.org/html/2606.20138#S1.F1))。我们使用学生对话模拟器训练提示路由模型。然后将我们的系统部署到真实世界中,与高中生进行测试。我们的主要贡献是:
1. 我们引入了一个**LLM评估器**,即使在下游练习分数缺失的情况下,也能作为学习者成功的即时可靠代理指标。此外,该代理能够统计性地预测真实学生的练习转化情况(转化组0.599 vs. 未转化组0.560,N=656,p=0.037)。
2. 我们将自适应辅导形式化为**提示路由**问题,使用主题和学科信息作为输入。路由器能够跨学科专门化教学策略,在模拟中优于两个静态基线(0.694 vs. 0.647 和 0.64,p<0.001)。
3. 我们在**真实世界**背景下,利用荷兰高中生的交互数据(N=656)验证了我们的方法。贪婪路由器在转化率上与所选基线相当(19.1% vs. 19.6%),但随机路由器实现了更高的转化率(28.1%)。
## 2 相关工作
#### 自适应辅导与提示路由
大型语言模型在个性化教育中显示出巨大潜力(Malik等,2025(https://arxiv.org/html/2606.20138#bib.bib17);Cibu等,2025(https://arxiv.org/html/2606.20138#bib.bib18))。虽然早期的提示优化侧重于全局最优(Zhou等,2022(https://arxiv.org/html/2606.20138#bib.bib11);Yang等,2023(https://arxiv.org/html/2606.20138#bib.bib12)),而最近的教育应用通常依赖针对单一学科(如数学)的静态提示(Gupta等,2025(https://arxiv.org/html/2606.20138#bib.bib8))。此外,近期方法通过使用强化学习(RL)将这个问题建模为序列决策问题(Nam等,2025(https://arxiv.org/html/2606.20138#bib.bib9);Dinucu\-Jianu等,2025(https://arxiv.org/html/2606.20138#bib.bib10))。
同时,路由已成为LLM推理中的一种策略。虽然现有工作大多集中于模型路由,即在LLM之间进行选择以优化成本-性能权衡(Chen等,2023(https://arxiv.org/html/2606.20138#bib.bib45);Ong等,2025(https://arxiv.org/html/2606.20138#bib.bib43))或利用基于强盗(bandit)的方法实现高效推理(Li,2025(https://arxiv.org/html/2606.20138#bib.bib47);Jitkrittum等,2025(https://arxiv.org/html/2606.20138#bib.bib42)),但近期研究表明,提示路由可以提升特定任务的准确性,例如算术推理(Singh,2026(https://arxiv.org/html/2606.20138#bib.bib44))。
我们将这些范式结合起来,将自适应教学策略形式化为提示路由问题,并使用情境强盗(contextual bandit)框架解决。我们的学科感知路由器动态选择教学策略(例如,支架式教学与深度推理)。
#### AI反馈与基于特征的学习奖励
虽然AI反馈为昂贵的人类反馈提供了一种可扩展的替代方案(Bai等,2022(https://arxiv.org/html/2606.20138#bib.bib20)),但传统的标量分数容易受到高方差和奖励游戏(reward gaming)的影响(Amodei等,2016(https://arxiv.org/html/2606.20138#bib.bib25);Skalse等,2022(https://arxiv.org/html/2606.20138#bib.bib26))。受人类认知中基于特征的学习奖励启发(Schultner等,2025(https://arxiv.org/html/2606.20138#bib.bib1)),我们构建了14个二值教育特征(例如,理解度、好奇心),而不是单一黑盒分数。
#### 弥合模拟到真实之间的差距
基于LLM的辅导系统中一个重要挑战是模拟到真实(sim-to-real)的差距(Zhou等,2026(https://arxiv.org/html/2606.20138#bib.bib49)),因为路由模型可能过度拟合模拟中的理想化反馈(Gao等,2023(https://arxiv.org/html/2606.20138#bib.bib35);Singhal等,2024(https://arxiv.org/html/2606.20138#bib.bib36))。这种错位在教育领域尤为关键,因为模拟器常常表现出阿谀奉承(sycophancy)行为,而真实学生则不然(Perez等,2023(https://arxiv.org/html/2606.20138#bib.bib38))。近期工作强调奖励校准(Mao等,2024(https://arxiv.org/html/2606.20138#bib.bib16))以确保部署中的稳定对齐。遵循稳健决策(Moos等,2022(https://arxiv.org/html/2606.20138#bib.bib40)),我们实现了分数平滑机制,以对齐模拟环境与真实部署之间的分数分布。
## 3 学科感知的自适应辅导框架
我们将自适应提示选择形式化为情境强盗路由问题,表示为元组⟨X,P,Y⟩\langle \mathcal{X}, \mathcal{P}, \mathcal{Y} \rangle。路由器观察教学输入x∈Xx \in \mathcal{X},并从提示池p∈Pp \in \mathcal{P}中选择辅导提示。然后环境返回评估分数y∈Yy \in \mathcal{Y}以优化路由器(图1(https://arxiv.org/html/2606.20138#S1.F1))。
### 3.1 输入表示与提示空间
#### 学科感知输入(X\mathcal{X})
为了支持跨学科决策,同时缓解预训练嵌入中观察到的表征退化(各向异性)问题(Gao等,2019(https://arxiv.org/html/2606.20138#bib.bib29)),我们采用混合输入表示。输入xx融合了来自E5编码器的768维主题嵌入etopic\mathbf{e}_{topic}(Wang等,2022(https://arxiv.org/html/2606.20138#bib.bib41))与一个可学习的64维学科ID嵌入esubject\mathbf{e}_{subject}。在公式1(https://arxiv.org/html/2606.20138#S3.E1)中,LN表示层归一化,⊕\oplus表示拼接。这种双路径架构显式地注入学科边界,有效展开坍缩的潜在空间(附录B(https://arxiv.org/html/2606.20138#A2))。
x=LN(fϕ(etopic)⊕fψ(esubject))\mathbf{x} = \text{LN}(f_{\phi}(\mathbf{e}_{topic}) \oplus f_{\psi}(\mathbf{e}_{subject})) \quad (1)
#### 提示空间(P\mathcal{P})
提示空间包含20个采用不同教学策略(例如,苏格拉底式支架、费曼角色反转)的教学提示。基础提示及其严格约束(例如,“2次尝试规则”)由人类教育专家明确编写。我们利用LLM在专家设计的模板(附录D(https://arxiv.org/html/2606.20138#A4))基础上增加变体(附录E(https://arxiv.org/html/2606.20138#A5))。
### 3.2 评估分数校准(Y\mathcal{Y})
作为评估器LLM,我们使用了GPT-5-mini(Singh等,2025(https://arxiv.org/html/2606.20138#bib.bib3)),采用*中等*推理努力和温度设置1。AI反馈分数yy是14个二值教学特征(附录H(https://arxiv.org/html/2606.20138#A8))的加权和,记为ci∈{0,1}c_i \in \{0,1\},yraw=∑i=114wi⋅ciy_{raw} = \sum_{i=1}^{14} w_i \cdot c_i。权重wiw_i来自与人类标注学习结果(附录I(https://arxiv.org/html/2606.20138#A9))的皮尔逊相关系数。为确保反馈特征的稳健性,我们通过多数投票聚合3次独立评估运行,将自一致性提升至94.31%(附录K(https://arxiv.org/html/2606.20138#A11))。
此外,为防止路由模型过度优化模拟学生的行为,我们通过应用sigmoid校准来固定模拟与现实之间的分布偏移:ycalibrated=[1+e−K⋅(yraw−0.5)]−1y_{calibrated} = [1 + e^{-K \cdot (y_{raw} - 0.5)}]^{-1}。通过针对经验分布的詹森-香农(JS)散度分析,我们将K=3.0K=3.0固定用于弥合模拟到真实的差距(附录J(https://arxiv.org/html/2606.20138#A10))。
### 3.3 残差路由架构与优化
对于路由模型,Actor-Critic网络(πθ,Vω\pi_{\theta}, V_{\omega})采用残差学科注入机制(附录A(https://arxiv.org/html/2606.20138#A1))。为防止分类的学科锚点esubject\mathbf{e}_{subject}被深层非线性变换稀释,我们实现了一个跳跃连接,将esubject\mathbf{e}_{subject}直接注入最终输出层。形式上,Actor前向过程为:
π(⋅|x)=Softmax(Wout[h2⊕esubject]+bout)\pi(\cdot|\mathbf{x}) = \text{Softmax}(W_{out}[h_2 \oplus \mathbf{e}_{subject}] + b_{out}) \quad (2)
其中h2h_2是处理混合输入x\mathbf{x}的两层MLP的输出。这确保了学科特定要求强有力地控制输出分布。我们以低标准差(0.010.01)初始化WoutW_{out}以进行初始探索。
我们使用PPO(Schulman等,2017(https://arxiv.org/html/2606.20138#bib.bib22))优化提示选择πθ\pi_{\theta}。虽然PPO传统上用于多步RL,但将回合长度限制为单步使其适应为有效的上下文强盗算法,其中Actor-Critic架构自然地提供基线减除的策略梯度更新。我们通过加入经验回放(Mnih等,2015(https://arxiv.org/html/2606.20138#bib.bib4))和重要性采样校正,使得能够在历史转换(x,p,y,πold)(x,p,y,\pi_{old})上进行多个优化时期,从而在LLM环境高延迟的情况下确保样本效率。
## 4 实验设置
为安全优化路由模型并观察其行为而不冒真实教学失败的风险,我们开发了一个受控模拟环境。在本节中,我们详细介绍该模拟器以及我们的评估基线、指标和实现设置。
### 4.1 模拟环境
在我们的模拟中,我们建模了三种不同的模拟学生档案:积极型、中等型和缺乏动力型。为确保行为真实性,同时防止LLM冗长,我们提取了风格化摘要并注入了随机“内心独白”(例如,[思考:你感到困惑])以引导学生推理(附录G(https://arxiv.org/html/2606.20138#A7))。模拟交互的代表性样本见附录R(https://arxiv.org/html/2606.20138#A18),供定性检查。训练期间,会话采样一个课程主题,并根据学生动机运行1到15轮。环境执行所选策略p∈Pp \in \mathcal{P},生成会话级转换(x,p,y)(x,p,y)以提供稳定的路由信号。
### 4.2 基线与评估
我们在(1)模拟中对我们的动态路由模型相对于各种基线进行了评估,并在(2)真实环境中与固定基线进行了比较。
#### 模拟基准测试
为在受控环境中评估教学效果,我们将我们的动态路由与两个基线进行了比较:(1)生产基线:商业辅导平台当前部署的专家精炼提示。(2)文献基线:Dinucu-Jianu等人(2025(https://arxiv.org/html/2606.20138#bib.bib10))提出的教学提示的静态改编版,集成了动态主题占位符(附录F(https://arxiv.org/html/2606.20138#A6))。为确保相似文章
并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进
# 并非放之四海而皆准:多语言大语言模型中从固定提示到可学习路由的演进 来源:[https://arxiv.org/html/2604.16937](https://arxiv.org/html/2604.16937) Wei-Chi Wu, Sheng-Lun Wei, Hen-Hsen Huang, Hsin-Hsi Chen α 台湾大学电脑科学与资讯工程学系,台湾 β 中央研究院资讯科学研究所,台湾 γ 台湾大学人工智能研究中心(AINTU),台湾 wcwu@c
确认正确,遗漏其余:LLM辅导代理在最需要反馈之处表现欠佳
本文对七个LLM反馈代理在命题逻辑辅导中进行基准测试,发现它们在最优步骤上表现良好,但系统性地未能正确诊断有效的次优和错误解决方案,凸显了自适应辅导的局限性。
面向即时自适应反馈:通过知识驱动的LLM提升学生学习效果
本文提出一个框架,利用领域专家知识来引导大语言模型,根据学生的书面推理提供即时自适应反馈。在一门大规模大学课程中,该框架使学生成绩提升了超过80%。
嘿,Chat,你能教我吗?面向人类现实学习的苏格拉底式对话结构化
本文提出了一种系统,将先验知识图谱与基于PPO的策略相结合,以结构化LLM的苏格拉底式辅导,实验表明,在学生的掌握程度和效率上,该系统优于启发式方法和前沿模型基线。
自监督提示优化
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。