学习提示：通过自适应基于LLM的高中辅导提高学生参与度

arXiv cs.AI 2026/06/20 04:00 论文

education llm tutoring adaptive-learning prompt-engineering student-engagement

摘要

本文提出了一种自适应、学科感知的提示路由框架，用于基于LLM的高中辅导，利用14个教学特征来切换策略。对359名学生进行的A/B测试显示，与静态基线相比，效率和转化率有所提高。

arXiv:2606.20138v1 公告类型：新摘要：LLMs可以个性化教育，尽管当前的静态提示辅导系统难以适应多样化的学科。我们开发并测试了一个具有学科感知提示的系统，该系统基于从原始记录中提取的14个教学特征（例如，教师支架、学生理解）。我们首先在模拟环境中训练一个提示路由模型，然后将其部署到实际高中生的在线适应中。模拟基准测试显示，路由器的表现优于两个静态基线（$0.694$ vs $0.647$和$0.64$，$p<0.001$）。A/B测试（来自359名学生的$N=656$次对话）显示了从模拟到真实的迁移，模型从分析性学习策略切换到支架式学习策略。我们的自适应提示选择机制提高了教学效率，保持了教学质量，并减少了约3轮交互（$p=0.007$）。尽管贪婪路由器的练习转化率与基线相当（$19.1\%$ vs $19.6\%$），但采样策略的随机路由器的转化率更高（$28.1\%$）。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:35

# 学会提示：通过自适应LLM高中辅导提升学生参与度
来源：https://arxiv.org/html/2606.20138
Po\-Chin Chang 莱顿大学 &Nicholas Hogan FutureWhiz&Aske Plaat 莱顿大学&Michiel T\. van der Meer 莱顿大学

###### 摘要

LLM可以实现个性化教育，但当前基于静态提示的辅导系统难以适应不同学科。我们开发并测试了一个具有学科感知提示的系统，该系统基于从原始对话记录中提取的14个教学特征（例如，教师支架式教学、学生理解度）。我们首先在模拟环境中训练提示路由模型，然后将其部署到实际高中生中进行在线自适应。模拟基准测试显示，路由器的表现优于两个静态基线（0.694 vs. 0.647 和 0.64, p<0.001）。A/B测试（来自359名学生的N=656次对话）显示了从模拟到真实的迁移，模型从分析策略转向支架式学习策略。我们的自适应提示选择机制提高了教学效率，保持了教学质量，并将交互次数减少了约3轮（p=0.007）。虽然贪婪路由器实现了与基线相当的练习转化率（19.1% vs. 19.6%），但采用策略采样的随机路由器获得了更高的转化率（28.1%）。

## 1 引言

大型语言模型（LLM）已成为教育领域的强大工具（Gupta等，2025（https://arxiv.org/html/2606.20138#bib.bib8）；Cibu等，2025（https://arxiv.org/html/2606.20138#bib.bib18）），为实现辅导系统的个性化提供了可能。然而，大多数研究仅在合成环境中验证教学效果（Nam等，2025（https://arxiv.org/html/2606.20138#bib.bib9）；Dinucu\-Jianu等，2025（https://arxiv.org/html/2606.20138#bib.bib10））。虽然模拟提供了安全探索，但理想化往往忽视了现实教育中的分布偏移、数据稀疏性和复杂交互（Amodei等，2016（https://arxiv.org/html/2606.20138#bib.bib25））。

\includestandalone

\[width=\]picture/framework3

图1：辅导系统对学科特定输入XX进行编码，从教学策略池PP中选取辅导提示pp。在模拟多轮对话后，基于LLM的评估器将交互分解为14个教学标准，以计算反馈信号YY。此外，当前方法依赖静态提示（Gupta等，2025（https://arxiv.org/html/2606.20138#bib.bib8））用于单一学科（数学），但无法适应不同学科（如法语、数学或地理）。虽然自动提示工程（Zhou等，2022（https://arxiv.org/html/2606.20138#bib.bib11））试图优化指令，但它通常收敛于全局静态提示。此外，预训练语义空间常存在表征退化问题（Gao等，2019（https://arxiv.org/html/2606.20138#bib.bib29）），阻碍当前路由模型区分不同学科。为克服这些限制，我们提出一个自适应、学科感知的提示路由框架，能够跨学科调整教学策略。

然而，要成功训练和优化这样的自适应路由系统，LLM辅导系统的核心挑战在于设计一个稳健的教学质量度量标准，使自适应LLM导师能够弥合模拟的理想世界与稀疏的真实世界交互之间的差距。此外，在真实场景中，用户在与LLM导师交互后常常跳过正式练习，导致缺乏用于模型训练的即时反馈。以往工作依赖单一黑盒分数（Zheng等，2023（https://arxiv.org/html/2606.20138#bib.bib48）），而我们的LLM评估器将教学效果分解为14个基于教育理论（如支架式教学）（Wood等，1976（https://arxiv.org/html/2606.20138#bib.bib23））的可观察标准。通过将这些反馈特征与人类标签进行校准，即使在缺少显式练习分数的情况下，我们的评分函数也能作为学习者成功的可靠代理指标。

我们提出了一个基于LLM评估器反馈的学科感知自适应辅导系统（图1（https://arxiv.org/html/2606.20138#S1.F1））。我们使用学生对话模拟器训练提示路由模型。然后将我们的系统部署到真实世界中，与高中生进行测试。我们的主要贡献是：

1. 我们引入了一个**LLM评估器**，即使在下游练习分数缺失的情况下，也能作为学习者成功的即时可靠代理指标。此外，该代理能够统计性地预测真实学生的练习转化情况（转化组0.599 vs. 未转化组0.560，N=656，p=0.037）。
2. 我们将自适应辅导形式化为**提示路由**问题，使用主题和学科信息作为输入。路由器能够跨学科专门化教学策略，在模拟中优于两个静态基线（0.694 vs. 0.647 和 0.64，p<0.001）。
3. 我们在**真实世界**背景下，利用荷兰高中生的交互数据（N=656）验证了我们的方法。贪婪路由器在转化率上与所选基线相当（19.1% vs. 19.6%），但随机路由器实现了更高的转化率（28.1%）。

## 2 相关工作

#### 自适应辅导与提示路由

大型语言模型在个性化教育中显示出巨大潜力（Malik等，2025（https://arxiv.org/html/2606.20138#bib.bib17）；Cibu等，2025（https://arxiv.org/html/2606.20138#bib.bib18））。虽然早期的提示优化侧重于全局最优（Zhou等，2022（https://arxiv.org/html/2606.20138#bib.bib11）；Yang等，2023（https://arxiv.org/html/2606.20138#bib.bib12）），而最近的教育应用通常依赖针对单一学科（如数学）的静态提示（Gupta等，2025（https://arxiv.org/html/2606.20138#bib.bib8））。此外，近期方法通过使用强化学习（RL）将这个问题建模为序列决策问题（Nam等，2025（https://arxiv.org/html/2606.20138#bib.bib9）；Dinucu\-Jianu等，2025（https://arxiv.org/html/2606.20138#bib.bib10））。

同时，路由已成为LLM推理中的一种策略。虽然现有工作大多集中于模型路由，即在LLM之间进行选择以优化成本-性能权衡（Chen等，2023（https://arxiv.org/html/2606.20138#bib.bib45）；Ong等，2025（https://arxiv.org/html/2606.20138#bib.bib43））或利用基于强盗（bandit）的方法实现高效推理（Li，2025（https://arxiv.org/html/2606.20138#bib.bib47）；Jitkrittum等，2025（https://arxiv.org/html/2606.20138#bib.bib42）），但近期研究表明，提示路由可以提升特定任务的准确性，例如算术推理（Singh，2026（https://arxiv.org/html/2606.20138#bib.bib44））。

我们将这些范式结合起来，将自适应教学策略形式化为提示路由问题，并使用情境强盗（contextual bandit）框架解决。我们的学科感知路由器动态选择教学策略（例如，支架式教学与深度推理）。

#### AI反馈与基于特征的学习奖励

虽然AI反馈为昂贵的人类反馈提供了一种可扩展的替代方案（Bai等，2022（https://arxiv.org/html/2606.20138#bib.bib20）），但传统的标量分数容易受到高方差和奖励游戏（reward gaming）的影响（Amodei等，2016（https://arxiv.org/html/2606.20138#bib.bib25）；Skalse等，2022（https://arxiv.org/html/2606.20138#bib.bib26））。受人类认知中基于特征的学习奖励启发（Schultner等，2025（https://arxiv.org/html/2606.20138#bib.bib1）），我们构建了14个二值教育特征（例如，理解度、好奇心），而不是单一黑盒分数。

#### 弥合模拟到真实之间的差距

基于LLM的辅导系统中一个重要挑战是模拟到真实（sim-to-real）的差距（Zhou等，2026（https://arxiv.org/html/2606.20138#bib.bib49）），因为路由模型可能过度拟合模拟中的理想化反馈（Gao等，2023（https://arxiv.org/html/2606.20138#bib.bib35）；Singhal等，2024（https://arxiv.org/html/2606.20138#bib.bib36））。这种错位在教育领域尤为关键，因为模拟器常常表现出阿谀奉承（sycophancy）行为，而真实学生则不然（Perez等，2023（https://arxiv.org/html/2606.20138#bib.bib38））。近期工作强调奖励校准（Mao等，2024（https://arxiv.org/html/2606.20138#bib.bib16））以确保部署中的稳定对齐。遵循稳健决策（Moos等，2022（https://arxiv.org/html/2606.20138#bib.bib40）），我们实现了分数平滑机制，以对齐模拟环境与真实部署之间的分数分布。

## 3 学科感知的自适应辅导框架

我们将自适应提示选择形式化为情境强盗路由问题，表示为元组⟨X,P,Y⟩\langle \mathcal{X}, \mathcal{P}, \mathcal{Y} \rangle。路由器观察教学输入x∈Xx \in \mathcal{X}，并从提示池p∈Pp \in \mathcal{P}中选择辅导提示。然后环境返回评估分数y∈Yy \in \mathcal{Y}以优化路由器（图1（https://arxiv.org/html/2606.20138#S1.F1））。

### 3.1 输入表示与提示空间

#### 学科感知输入（X\mathcal{X}）

为了支持跨学科决策，同时缓解预训练嵌入中观察到的表征退化（各向异性）问题（Gao等，2019（https://arxiv.org/html/2606.20138#bib.bib29）），我们采用混合输入表示。输入xx融合了来自E5编码器的768维主题嵌入etopic\mathbf{e}_{topic}（Wang等，2022（https://arxiv.org/html/2606.20138#bib.bib41））与一个可学习的64维学科ID嵌入esubject\mathbf{e}_{subject}。在公式1（https://arxiv.org/html/2606.20138#S3.E1）中，LN表示层归一化，⊕\oplus表示拼接。这种双路径架构显式地注入学科边界，有效展开坍缩的潜在空间（附录B（https://arxiv.org/html/2606.20138#A2））。

x=LN(fϕ(etopic)⊕fψ(esubject))\mathbf{x} = \text{LN}(f_{\phi}(\mathbf{e}_{topic}) \oplus f_{\psi}(\mathbf{e}_{subject})) \quad (1)

#### 提示空间（P\mathcal{P}）

提示空间包含20个采用不同教学策略（例如，苏格拉底式支架、费曼角色反转）的教学提示。基础提示及其严格约束（例如，“2次尝试规则”）由人类教育专家明确编写。我们利用LLM在专家设计的模板（附录D（https://arxiv.org/html/2606.20138#A4））基础上增加变体（附录E（https://arxiv.org/html/2606.20138#A5））。

### 3.2 评估分数校准（Y\mathcal{Y}）

作为评估器LLM，我们使用了GPT-5-mini（Singh等，2025（https://arxiv.org/html/2606.20138#bib.bib3）），采用*中等*推理努力和温度设置1。AI反馈分数yy是14个二值教学特征（附录H（https://arxiv.org/html/2606.20138#A8））的加权和，记为ci∈{0,1}c_i \in \{0,1\}，yraw=∑i=114wi⋅ciy_{raw} = \sum_{i=1}^{14} w_i \cdot c_i。权重wiw_i来自与人类标注学习结果（附录I（https://arxiv.org/html/2606.20138#A9））的皮尔逊相关系数。为确保反馈特征的稳健性，我们通过多数投票聚合3次独立评估运行，将自一致性提升至94.31%（附录K（https://arxiv.org/html/2606.20138#A11））。

此外，为防止路由模型过度优化模拟学生的行为，我们通过应用sigmoid校准来固定模拟与现实之间的分布偏移：ycalibrated=[1+e−K⋅(yraw−0.5)]−1y_{calibrated} = [1 + e^{-K \cdot (y_{raw} - 0.5)}]^{-1}。通过针对经验分布的詹森-香农（JS）散度分析，我们将K=3.0K=3.0固定用于弥合模拟到真实的差距（附录J（https://arxiv.org/html/2606.20138#A10））。

### 3.3 残差路由架构与优化

对于路由模型，Actor-Critic网络（πθ,Vω\pi_{\theta}, V_{\omega}）采用残差学科注入机制（附录A（https://arxiv.org/html/2606.20138#A1））。为防止分类的学科锚点esubject\mathbf{e}_{subject}被深层非线性变换稀释，我们实现了一个跳跃连接，将esubject\mathbf{e}_{subject}直接注入最终输出层。形式上，Actor前向过程为：

π(⋅|x)=Softmax(Wout[h2⊕esubject]+bout)\pi(\cdot|\mathbf{x}) = \text{Softmax}(W_{out}[h_2 \oplus \mathbf{e}_{subject}] + b_{out}) \quad (2)

其中h2h_2是处理混合输入x\mathbf{x}的两层MLP的输出。这确保了学科特定要求强有力地控制输出分布。我们以低标准差（0.010.01）初始化WoutW_{out}以进行初始探索。

我们使用PPO（Schulman等，2017（https://arxiv.org/html/2606.20138#bib.bib22））优化提示选择πθ\pi_{\theta}。虽然PPO传统上用于多步RL，但将回合长度限制为单步使其适应为有效的上下文强盗算法，其中Actor-Critic架构自然地提供基线减除的策略梯度更新。我们通过加入经验回放（Mnih等，2015（https://arxiv.org/html/2606.20138#bib.bib4））和重要性采样校正，使得能够在历史转换(x,p,y,πold)(x,p,y,\pi_{old})上进行多个优化时期，从而在LLM环境高延迟的情况下确保样本效率。

## 4 实验设置

为安全优化路由模型并观察其行为而不冒真实教学失败的风险，我们开发了一个受控模拟环境。在本节中，我们详细介绍该模拟器以及我们的评估基线、指标和实现设置。

### 4.1 模拟环境

在我们的模拟中，我们建模了三种不同的模拟学生档案：积极型、中等型和缺乏动力型。为确保行为真实性，同时防止LLM冗长，我们提取了风格化摘要并注入了随机“内心独白”（例如，[思考：你感到困惑]）以引导学生推理（附录G（https://arxiv.org/html/2606.20138#A7））。模拟交互的代表性样本见附录R（https://arxiv.org/html/2606.20138#A18），供定性检查。训练期间，会话采样一个课程主题，并根据学生动机运行1到15轮。环境执行所选策略p∈Pp \in \mathcal{P}，生成会话级转换(x,p,y)(x,p,y)以提供稳定的路由信号。

### 4.2 基线与评估

我们在（1）模拟中对我们的动态路由模型相对于各种基线进行了评估，并在（2）真实环境中与固定基线进行了比较。

#### 模拟基准测试

为在受控环境中评估教学效果，我们将我们的动态路由与两个基线进行了比较：（1）生产基线：商业辅导平台当前部署的专家精炼提示。（2）文献基线：Dinucu-Jianu等人（2025（https://arxiv.org/html/2606.20138#bib.bib10））提出的教学提示的静态改编版，集成了动态主题占位符（附录F（https://arxiv.org/html/2606.20138#A6））。为确保

学习提示：通过自适应基于LLM的高中辅导提高学生参与度

相似文章

并非放之四海而皆准：多语言大语言模型中从固定提示到可学习路由的演进

确认正确，遗漏其余：LLM辅导代理在最需要反馈之处表现欠佳

面向即时自适应反馈：通过知识驱动的LLM提升学生学习效果

嘿，Chat，你能教我吗？面向人类现实学习的苏格拉底式对话结构化

自监督提示优化

提交意见反馈