超越怀疑:用自适应教学警戒框架评估LLM的教学意图推理能力

arXiv cs.CL 论文

摘要

本文介绍了自适应教学警戒(APV)框架,用于评估LLM在教学交流中推理教学意图的能力。该框架采用贝叶斯推理,并展示了GPT-4o和Claude 3.5等模型在区分教学内容方面的改进。

arXiv:2607.01581v1 公告类型:新 摘要:大型语言模型(LLM)在教学交流中推理教学意图的能力尚未得到充分探索,尤其是在翻译教学法等教育领域。为此,我们提出了\textbf{自适应教学警戒(APV)}框架,这是一种新颖的计算形式化方法,将交流警戒重新定义为通过意图推理优化学习的自适应机制。APV通过贝叶斯教学意图推理引擎(PIIE)形式化问题,该引擎模拟了教师如何选择教学内容以最大化教学效用,以及警惕的学习者如何反向推理潜在的教学配置——包括体裁、立场和激励。我们通过三级层次评估APV:区分教学体裁、推理结构化教学设置以及泛化到真实教育话语。在领先的LLM(如GPT-4o、Claude 3.5)上的实验表明,APV显著提高了模型的警惕性。它在教学内容和暴露式内容之间实现了最强的区分,与人类判断高度相关($r=0.958$),并在基线方法性能下降的自然数据上保持稳健表现。这项工作建立了一个统一的框架,用于评估和增强LLM对教学动机的理解,推动更可靠的AI辅助学习系统的发展。
查看原文
查看缓存全文

缓存时间: 2026/07/03 05:40

# Beyond Skepticism: Evaluating LLMs’ Pedagogical Intent Reasoning with the Adaptive Pedagogical Vigilance Framework
来源:https://arxiv.org/html/2607.01581
陈铭浩 计算机科学与技术学院 浙江大学 周瑞涵 计算机科学与技术学院 浙江大学 唐佳怡 计算机科学与技术学院 浙江大学 徐子涵 计算机科学与技术学院 浙江大学 黄博文 计算机科学与技术学院 浙江大学 刘宇欣 计算机科学与技术学院 浙江大学

###### 摘要

大型语言模型(LLM)在教学交流中推理教学意图的能力仍未被充分探索,尤其是在翻译教学法等教育领域。为此,我们提出了自适应教学警觉(APV)框架,这是一种新颖的计算形式体系,将交流警觉重新定义为一种通过意图推理优化学习的自适应机制。APV通过贝叶斯教学意图推理引擎(PIIE)形式化该问题,该引擎模拟教师如何选择内容以最大化教学效用,以及警觉的学习者应如何逆向推理潜在的指令配置——涵盖体裁、立场和激励。我们通过三层层次结构评估APV:区分教学体裁、推理结构化教学设置,以及泛化到真实教育话语。在主流LLM(如GPT-4o、Claude 3.5)上的实验表明,APV显著提升了模型的警觉性。它在教学内容与曝光式内容之间实现了最强的区分,与人类判断高度相关(r=0.958),并且在基线方法性能下降的自然主义数据上保持了稳健的表现。这项工作为评估和增强LLM对教学动机的理解建立了统一框架,推动了更可靠的AI辅助学习系统的发展。

参见图注图1:动机:教学意图既不能轻信,也不能全盘怀疑;APV旨在针对基于指令的信念更新实现适当的警觉。

## 1 引言

大型语言模型(LLM)处理的信息中,很大一部分来自有意识的人类交流,包括社交媒体帖子、评论和正式论证。为了有效应对此类情境,人类依赖于认识警觉——即通过推断信息来源的动机和激励来评估信息的能力(Sperber等,2010(https://arxiv.org/html/2607.01581#bib.bib6);Qu和Ma,2025(https://arxiv.org/html/2607.01581#bib.bib50);Qi等,2022(https://arxiv.org/html/2607.01581#bib.bib51);Zhou等,2025(https://arxiv.org/html/2607.01581#bib.bib65))。其中核心组成部分是动机警觉,它支持选择性学习,通过区分善意建议和操纵性交流。Wu等(2022(https://arxiv.org/html/2607.01581#bib.bib52)、2024c(https://arxiv.org/html/2607.01581#bib.bib53))指出,随着LLM被越来越多地部署为自主智能体,评估它们是否具有类似的社会推理警觉能力变得至关重要。

当前证据表明,LLM在这种警觉性方面存在困难。Wu等(2020(https://arxiv.org/html/2607.01581#bib.bib54));Wang等(2023(https://arxiv.org/html/2607.01581#bib.bib55))已知它们容易受到越狱攻击(Wei等,2024(https://arxiv.org/html/2607.01581#bib.bib15);Zou等,2023(https://arxiv.org/html/2607.01581#bib.bib16);Wu等,2024b(https://arxiv.org/html/2607.01581#bib.bib56),a(https://arxiv.org/html/2607.01581#bib.bib57)),并表现出诸如谄媚等行为,往往优先考虑与用户的对齐而非追求真理(Sharma等,2024(https://arxiv.org/html/2607.01581#bib.bib14);Perez等,2022(https://arxiv.org/html/2607.01581#bib.bib13);Tian等,2025(https://arxiv.org/html/2607.01581#bib.bib59);Lin,2025b(https://arxiv.org/html/2607.01581#bib.bib60))。这些缺陷源于训练范式强调遵循指令和用户满意度,而忽视了对说话者潜在激励的关键评估(Ouyang等,2022(https://arxiv.org/html/2607.01581#bib.bib18);Lin,2025a(https://arxiv.org/html/2607.01581#bib.bib61)、c(https://arxiv.org/html/2607.01581#bib.bib62))。然而,为了使LLM智能体在现实环境中可靠运行,检测交流动机并动态校准信任的能力不可或缺。目前,研究界缺乏一个系统性的框架来全面衡量这种能力。

为弥补这一空白,我们提出了自适应教学警觉(APV)框架。Yang等(2025(https://arxiv.org/html/2607.01581#bib.bib63));He等(2025(https://arxiv.org/html/2607.01581#bib.bib64))我们将警觉重新定义为一种自适应认知机制,通过推断教学意图来优化学习结果。APV框架锚定于一个形式化的贝叶斯模型——教学意图推理引擎(PIIE),为评估LLM在多语言翻译教学法中的动机推理能力提供了统一结构。我们系统地将该框架实例化到三个层次化评估层级,将先前的实验范式转化为结构化的教学场景,评估:(1)区分有意教学与偶然接触的能力,(2)根据导师的教学立场和激励校准信任的敏感性,以及(3)将这种推理泛化到真实教育话语的能力。

我们的实验表明,基线LLM虽然表现出对动机的基本敏感性(参见bubeck2023sparks、niu2024large、cao2025cofi),但APV框架实现了最先进的性能(参见wei2022chain、cao2025purifygen)。在结构化场景中,APV引导的模型实现了与理性基准和人类判断几乎完美的对齐。值得注意的是,在基线警觉性下降的生态有效环境中,APV框架保持了稳健且显著的教学意图推理和学习效用预测能力。这项工作为在目标导向的交流情境中评估LLM的社会推理建立了新的形式化和经验基线。本文其余部分安排如下:详细阐述APV方法,展示三个评估层级的实验结果,并以影响和未来方向的讨论作为结束。

## 2 相关工作

我们的工作连接了三个研究方向:关于人类动机警觉的社会认知研究、大型语言模型社会能力及失败的评估,以及应用认知科学框架分析LLM行为。我们依次回顾每个方向,强调它们对理解教学交流中警觉性的贡献。

### 2.1 人类的动机警觉

有效的社会学习需要区分可靠与不可靠的信息来源(Henrich和Gil-White,2001(https://arxiv.org/html/2607.01581#bib.bib24);Heyes,2018(https://arxiv.org/html/2607.01581#bib.bib25);Tomasello等,2005(https://arxiv.org/html/2607.01581#bib.bib26);Xin等,2025a(https://arxiv.org/html/2607.01581#bib.bib69))。这种能力称为警觉,对于异议解决和欺骗检测等行为至关重要(Levine,2014(https://arxiv.org/html/2607.01581#bib.bib29);Bond Jr和DePaulo,2006(https://arxiv.org/html/2607.01581#bib.bib30);Mercier和Sperber,2017(https://arxiv.org/html/2607.01581#bib.bib28);Xin等,2025b(https://arxiv.org/html/2607.01581#bib.bib70))。社会认知研究区分了对来源“能力”(知识)的警觉和对“动机”(善意)的警觉(Sperber等,2010(https://arxiv.org/html/2607.01581#bib.bib6);Xin等,2024(https://arxiv.org/html/2607.01581#bib.bib71))。虽然大量研究考察了能力警觉(Perfors等,2011(https://arxiv.org/html/2607.01581#bib.bib23);Griffiths和Tenenbaum,2006(https://arxiv.org/html/2607.01581#bib.bib20);Yu,2025(https://arxiv.org/html/2607.01581#bib.bib72)),但对动机警觉的研究集中于两个关键判断因素:说话者的潜在“意图”(利他与自私)(Cialdini和Goldstein,2004(https://arxiv.org/html/2607.01581#bib.bib27);Xiang等,2025(https://arxiv.org/html/2607.01581#bib.bib73))以及他们欺骗的境况“激励”(Levine,2014(https://arxiv.org/html/2607.01581#bib.bib29))。关注这些因素有助于缓解操纵,尽管操纵者可能利用互惠等社会动态(Cialdini和Goldstein,2004(https://arxiv.org/html/2607.01581#bib.bib27);Bai等,2025(https://arxiv.org/html/2607.01581#bib.bib75))。这一过程体现了战略性、递归性的社会推理:听者推理说话者为什么选择特定话语,而说话者预判这些推理(Frank和Goodman,2012(https://arxiv.org/html/2607.01581#bib.bib31);Goodman和Frank,2016(https://arxiv.org/html/2607.01581#bib.bib32);Hawkins等,2015(https://arxiv.org/html/2607.01581#bib.bib33);Wang等,2011(https://arxiv.org/html/2607.01581#bib.bib76))。这种推理从根本上依赖于心理理论——表征他人心理状态的能力(Premack和Woodruff,1978(https://arxiv.org/html/2607.01581#bib.bib38);Wimmer和Perner,1983(https://arxiv.org/html/2607.01581#bib.bib37);Baron-Cohen等,1985(https://arxiv.org/html/2607.01581#bib.bib39);Pan等,2024(https://arxiv.org/html/2607.01581#bib.bib77))。

### 2.2 LLM的失败与交流意图推理

现代LLM通常通过基于人类反馈的强化学习(RLHF)进行对齐,这可能会引入不良效应,如幻觉、奖励黑客和欺骗行为(Christiano等,2017(https://arxiv.org/html/2607.01581#bib.bib17);Ouyang等,2022(https://arxiv.org/html/2607.01581#bib.bib18);Ji等,2023(https://arxiv.org/html/2607.01581#bib.bib19);Sharma等,2024(https://arxiv.org/html/2607.01581#bib.bib14);Peng等,2024b(https://arxiv.org/html/2607.01581#bib.bib2);Wang等,2012(https://arxiv.org/html/2607.01581#bib.bib78))。一些有记录的LLM失败可以解释为动机警觉的缺陷。模型容易受到“越狱”攻击,即遵循恶意用户指令(Wei等,2024(https://arxiv.org/html/2607.01581#bib.bib15);Zou等,2023(https://arxiv.org/html/2607.01581#bib.bib16);Peng等,2024a(https://arxiv.org/html/2607.01581#bib.bib3)),并表现出“谄媚”,即使回答与用户信念而非事实对齐(Sharma等,2024(https://arxiv.org/html/2607.01581#bib.bib14);Perez等,2022(https://arxiv.org/html/2607.01581#bib.bib13))。这些失败源于训练过程中优先考虑局部偏好遵循,而忽视了真实世界交流的策略性细微差别。

警觉在概念上与LLM中评估的其他社会能力相关。它可以影响关于“从众”的决策(Asch,1956(https://arxiv.org/html/2607.01581#bib.bib41);Niu等,2024a(https://arxiv.org/html/2607.01581#bib.bib79)),并建立在诸如归因关于说话者恶意的“错误信念”(Wellman等,2001(https://arxiv.org/html/2607.01581#bib.bib40);strachan2024testing;Kosinski,2024(https://arxiv.org/html/2607.01581#bib.bib11))或“误解交流意图”(Sap等,2022(https://arxiv.org/html/2607.01581#bib.bib12);Chen等,2024(https://arxiv.org/html/2607.01581#bib.bib10))等能力之上。然而,警觉独特地将关于说话者可信度和激励的先验信念与他们话语所证实的信念更新程度联系起来。

### 2.3 利用认知科学研究LLM

越来越多的研究应用认知科学方法来研究LLM,利用受控任务和刺激来测试特定假设(Bubeck等,2023(https://arxiv.org/html/2607.01581#bib.bib36);Niu等,2024c(https://arxiv.org/html/2607.01581#bib.bib1),b(https://arxiv.org/html/2607.01581#bib.bib80))。这种方法已被用于研究LLM的各个方面,包括表征对齐(Hendrycks等,2020(https://arxiv.org/html/2607.01581#bib.bib34);Zhang等,2024(https://arxiv.org/html/2607.01581#bib.bib5);Yu等,2025a(https://arxiv.org/html/2607.01581#bib.bib82))、推理(Wei等,2022(https://arxiv.org/html/2607.01581#bib.bib35);Bi等,2025(https://arxiv.org/html/2607.01581#bib.bib83))、社会偏见、记忆和心理理论(strachan2024testing;Kosinski,2024(https://arxiv.org/html/2607.01581#bib.bib11);Chen等,2024(https://arxiv.org/html/2607.01581#bib.bib10);Sap等,2022(https://arxiv.org/html/2607.01581#bib.bib12);Xu等,2025(https://arxiv.org/html/2607.01581#bib.bib84))。

相关的一部分文献采用心理学中的理性模型。研究应用理性决策模型来分析概率判断(Griffiths和Tenenbaum,2006(https://arxiv.org/html/2607.01581#bib.bib20))和关于人类行为的假设(Goodman等,2008(https://arxiv.org/html/2607.01581#bib.bib21);Han等,2025(https://arxiv.org/html/2607.01581#bib.bib86))。“资源合理性”原则——平衡效用与计算成本(Lieder和Griffiths,2020(https://arxiv.org/html/2607.01581#bib.bib22);Wei等,2025b(https://arxiv.org/html/2607.01581#bib.bib87))——已被用于理解和指导LLM输出。理性交流模型也被应用于研究价值冲突(Frank和Goodman,2012(https://arxiv.org/html/2607.01581#bib.bib31);You等,2025(https://arxiv.org/html/2607.01581#bib.bib95))以及游戏和场景中的经济理性(Goodman和Frank,2016(https://arxiv.org/html/2607.01581#bib.bib32);Wang,2025(https://arxiv.org/html/2607.01581#bib.bib96))。我们的工作遵循这一传统,采用认知科学的理性模型正式考察LLM对动机交流的警觉性,特别是在教学情境中(Oktar等,2024(https://arxiv.org/html/2607.01581#bib.bib9),2025(https://arxiv.org/html/2607.01581#bib.bib8);Wang,2024(https://arxiv.org/html/2607.01581#bib.bib97))。

参见图注图2:APV框架概述:从指令和上下文中推断教学配置,调整警觉性,并在层次化评估协议下更新信念。

## 3 方法:自适应教学警觉(APV)框架

我们引入自适应教学警觉(APV)框架,这是一个统一的计算形式体系,旨在评估大型语言模型(LLM)在多语言翻译教学法中推理交流动机的能力。APV将警觉重新定义为一种自适应认知机制,通过推断教学输入背后的教学意图来优化学习结果,超越了单纯的社会怀疑。该框架包括一个核心形式化模型和三个层次化评估层级,系统性地评估这些LLM能力。图3(https://arxiv.org/html/2607.01581#S3.F3)提供了APV架构的概述。

参见图注图3:自适应教学警觉(APV)框架概述。教师模型基于教学效用U\_Teach生成教学内容I。学生模型通过教学意图推理引擎(PIIE)执行贝叶斯推理,该引擎整合了三个配置组件:指令、体裁和立场。

相似文章

基于认识论权利的LLM二阶偏见评估

arXiv cs.CL

本文介绍了“二阶偏见”,即LLM在判断有偏见内容时所表现出的偏见,并提出了一种基于认识论权利的推理任务来评估它。实验表明,该任务能够规避安全护栏,并揭示LLM评判者中系统性的群体偏见。