确认正确,遗漏其余:LLM辅导代理在最需要反馈之处表现欠佳
摘要
本文对七个LLM反馈代理在命题逻辑辅导中进行基准测试,发现它们在最优步骤上表现良好,但系统性地未能正确诊断有效的次优和错误解决方案,凸显了自适应辅导的局限性。
arXiv:2605.16207v1 公告类型:新
摘要:有效的辅导需要区分最优、有效但次优以及错误的学生解决方案,这一区分是智能辅导系统(ITS)的核心,但尚未针对基于LLM的辅导系统进行测试。随着LLM越来越被探索作为ITS的对话补充,评估其诊断精度至关重要。我们提出了一个包含七个LLM反馈代理的基准测试,使用基于知识图谱的基准事实,在命题逻辑领域涵盖10,836个解决方案-反馈对和三种反馈条件。模型在最优步骤上达到了接近上限的表现,但系统性地过度拒绝了有效的次优推理,并过度认可了错误的解决方案——这恰恰是自适应辅导最关键的地方。这些失败在所有模型中都持续存在,无论解决方案上下文如何,表明是架构限制而非信息限制。此外,准确的诊断并不能可靠地产生具有教学可操作性的反馈,揭示了诊断判断与教学效果之间的差距。我们的发现表明,LLM更适合混合架构,其中基于知识图谱的模型处理诊断,而LLM支持开放式脚手架和对话。
查看缓存全文
缓存时间: 2026/05/18 06:36
# 确认正确,遗漏其余:LLM辅导代理在最需要反馈的地方困难重重
来源:https://arxiv.org/html/2605.16207
Tahreem Yasir Wenbo Li Sam Gilson Sutapa Dey Tithi Xiaoyi Tian Tiffany Barnes
北卡罗来纳州立大学
\{tyasir, wli55, sagilson, stithi, xtian9, tmbarnes\}@ncsu\.edu
###### 摘要
有效的辅导需要区分最优、有效但次优以及错误的学生解决方案,这一区分是智能辅导系统(ITS)的核心,但对于基于LLM的辅导代理尚未得到验证。随着LLM越来越多地被探索作为ITS的对话补充,评估其诊断精度至关重要。我们提出了一个包含七个LLM反馈代理的基准测试,在命题逻辑中利用知识图谱导出的真实标注,覆盖10,836个解-反馈对和三种反馈条件111https://github.com/tahreemm/BEA_2026。模型在最优步骤上达到了接近天花板的表现,但系统地过度拒绝了有效但次优的推理,并过度验证了错误解决方案——而这正是自适应辅导最关键的领域。这些失败在不同模型和解决方案上下文中持续存在,表明问题在于架构限制而非信息限制。此外,准确的诊断并不能可靠地产生具有教学可操作性的反馈,揭示了诊断判断与教学效果之间的差距。我们的发现表明,LLM更适合混合架构,其中知识图谱基础模型负责诊断,而LLM支持开放式脚手架搭建和对话。
确认正确,遗漏其余:LLM辅导代理在最需要反馈的地方困难重重
Tahreem Yasir Wenbo Li Sam Gilson Sutapa Dey Tithi Xiaoyi Tian Tiffany Barnes
北卡罗来纳州立大学
\{tyasir, wli55, sagilson, stithi, xtian9, tmbarnes\}@ncsu\.edu
## 1 引言
查看说明 (a) 最优路径
查看说明 (b) 有效替代路径
图1:最优和有效替代解决方案(蓝色节点代表缩写推理规则名称,在表4 (https://arxiv.org/html/2605.16207#A1.T4) 中解释)
查看说明
图2:基于知识图谱的评估流程。(1) 从辅导系统提取证明状态和专家解决方案。(2) LLM模拟的学生生成一个错误推导(知识图谱验证:错误)。(3) 三个反馈代理错误地将学生解决方案评估为“有效替代”。(4) 自动和人工反馈分析揭示了“教师”、“同伴”和“评审”条件下系统性的过度验证和不同的诊断失败模式。
有效的辅导不仅需要识别学生解决方案是否正确,还需要判断其推理是否良好,是否应鼓励或引导其采用更高效的方法。Gupta 等人 (2025 (https://arxiv.org/html/2605.16207#bib.bib8))。在命题逻辑等结构化推理领域,学生可能遵循专家设定的路径得出最优下一步、应用有效但次优的推理规则(有效替代步骤),或完全出错。Maniktala 等人 (2023 (https://arxiv.org/html/2605.16207#bib.bib20))。专家编写(最优)解决方案和有效但更长的解决方案示例见图1 (https://arxiv.org/html/2605.16207#S1.F1)。区分这三种学生步骤具有直接的教学意义,学习科学专家将其称为“辅助困境”。Koedinger 和 Aleven (2007 (https://arxiv.org/html/2605.16207#bib.bib13))。将有效推理视为错误可能会抑制探索性产出,而接受所有有效替代步骤而不加指导则可能强化低效的问题解决策略。智能辅导系统(ITS)通过使用显式建模的解决方案空间逐步诊断学生推理来解决这一权衡 (VanLehn, 2011 (https://arxiv.org/html/2605.16207#bib.bib35))。然而,它们依赖每个问题的专家编写解决方案图,限制了向新领域的可扩展性 (Weitekamp 等人, 2020 (https://arxiv.org/html/2605.16207#bib.bib37)),并且在学生偏离预期推理路径时,提供的对话和探索性对话支持有限 (Zerkouk 和 Chikhaoui, 2025 (https://arxiv.org/html/2605.16207#bib.bib39))。大语言模型(LLM)通过对话灵活性、跨领域泛化以及无需逐问题编写即可提供可扩展反馈来解决这些限制 (Reddig 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib24); Chen 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib5)),使其成为ITS的有前途的补充。然而,没有基础的情况下,LLM会产生幻觉 (Liu 等人, 2025a (https://arxiv.org/html/2605.16207#bib.bib15)),并且常常直接揭示解决方案而不是搭建推理支架 (Macina 等人, 2023 (https://arxiv.org/html/2605.16207#bib.bib18)),限制了其在辅导中的可靠性。基于专家解决方案的角色专用反馈流程可能提高诊断准确性 (Phung 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib23); Guo 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib7)),但它们是否支持有效辅导所需的细粒度推理诊断尚不明确,尤其是在结构化推理领域。我们通过大规模评估LLM在命题逻辑中的反馈来填补这一空白,因为区分最优、有效替代和错误步骤具有直接的教学重要性。与以往依赖二元正确性标签的辅导评估不同 (Gupta 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib8); Borchers 和 Shou, 2025 (https://arxiv.org/html/2605.16207#bib.bib4)),我们的框架使用从真实辅导系统导出的知识图谱(KG)解决方案空间来表示所有有效推理路径 (Barnes 和 Stamper, 2008 (https://arxiv.org/html/2605.16207#bib.bib2)),从而实现智能辅导系统核心的三分类诊断 (Aleven 等人, 2009 (https://arxiv.org/html/2605.16207#bib.bib1); VanLehn, 2006 (https://arxiv.org/html/2605.16207#bib.bib34))。
**贡献:** 我们提出了首个针对多个有效解决方案路径的LLM辅导反馈逐步评估基准。利用该基准,我们评估了10,836个LLM模拟的下一步解及其反馈,涉及七个模型和三种反馈条件,并使用知识图谱基础评估。为了解LLM反馈在何时仍具教学有效性,以及哪些因素影响这种行为,我们研究了三个研究问题:
- **RQ1:** LLM反馈代理将单步逻辑证明解分类为最优、有效替代或错误的准确度如何?出现了哪些系统性错误?
- **RQ2:** 哪些模型级别和问题级别的因素影响这种三分类诊断?
- **RQ3:** LLM反馈的教学质量如何?它如何与三分类诊断相关联?
我们的细粒度评估表明,LLM一致性地过度拒绝有效替代推理,并过度验证错误解决方案,且在不同模型和解上下文中均存在。失败更多由模型行为驱动,而非问题难度。我们进一步发现,准确的解诊断并不能可靠地产生教学有效的反馈。模型可能正确评估解的质量,但仍未能提供支持学习的指导,将反馈简化为确认或错误检测,体现了“辅助困境”。综合来看,这些发现表明,当前LLM需要ITS基础的诊断机制,更适合作为自适应辅导系统的补充,而非替代。
## 2 相关工作
### 2.1 LLM辅导与诊断适应性
LLM在诊断学生错误 (Reddig 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib24)) 和支持自我调节 (Chen 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib5)) 方面显示出潜力,但辅导评估表明,即使有参考解,它们也无法可靠地识别推理错误 (Liu 等人, 2025b (https://arxiv.org/html/2605.16207#bib.bib16); Jia 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib11))。角色专用反馈流程,即一个代理生成反馈而另一个代理验证,可以提高精确度并减少过度表扬 (Phung 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib23); Guo 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib7)),然而验证也可能根据响应类型传播现有错误 (Guo 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib7); Yasir 等人, 2026 (https://arxiv.org/html/2605.16207#bib.bib38))。先前的工作进一步表明,LLM对辅导上下文的适应性有限 (Borchers 和 Shou, 2025 (https://arxiv.org/html/2605.16207#bib.bib4)),并且在部分正确响应(最需要指导的情况)上表现不佳 (Mahdavi 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib19))。多个有效解决方案路径在命题逻辑等结构化推理领域中很常见 (Große 和 Renkl, 2006 (https://arxiv.org/html/2605.16207#bib.bib6); Maniktala 等人, 2023 (https://arxiv.org/html/2605.16207#bib.bib20))。传统ITS通过手动编写的解决方案图来解决这一问题,这些图编码了最优和有效替代路径 (Aleven 等人, 2009 (https://arxiv.org/html/2605.16207#bib.bib1)),但这限制了其可扩展性,仅适用于预编写的问题。LLM辅导代理是否也能进行最优、有效替代和错误的三分类诊断尚未得到测试,这是本文的核心问题。
### 2.2 LLM模拟学生
评估辅导反馈需要涵盖最优、有效替代和错误响应的学生解决方案,而这些在真实交互日志中往往代表性不足 (Maniktala 等人, 2023 (https://arxiv.org/html/2605.16207#bib.bib20))。LLM模拟学生已成为解决这一覆盖问题的实用方案。先前工作表明,LLM可以在开放环境中可靠地模拟学习者行为 (Mannekote 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib21)),生成用于评估编程辅导系统的响应 (Phung 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib23)),并产生与真实学生档案和响应一致的多项选择答案 (Lu 和 Wang, 2024 (https://arxiv.org/html/2605.16207#bib.bib17))。LLM还被证明可以在教育领域模拟不同技能水平的学生 (Benedetto 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib3)),同时生成逼真的不确定性、困惑和错误,在基准测试环境中有效挑战教师代理 (Shi 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib30))。在我们的工作中,模拟还因辅导系统日志缺少推理轨迹而变得必要,使得真实交互数据不足以进行逐步推理评估。
### 2.3 评估基准
现有的逻辑推理基准不支持我们框架所需的逐步、多路径评估。ProofWriter (Tafjord 等人, 2020 (https://arxiv.org/html/2605.16207#bib.bib32)) 仅评估最终证明的有效性,掩盖了逐步规则应用。FOLIO (Han 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib9)) 提供专家编写的一阶逻辑问题,但惩罚有效替代推导,而 ProntoQA (Saparov 和 He, 2023 (https://arxiv.org/html/2605.16207#bib.bib26)) 支持使用合成推理链进行受控评估,但无法表示多个推理规则可能适用的分支点。LogicLearner (Inamdar 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib10)) 专注于基本逻辑问题的引导练习,其基准数据不可用。据我们所知,这些基准均不支持评估存在多个有效解时中间步骤的反馈质量。
### 2.4 逻辑证明的推理难度
结构复杂性是命题推理中的一个已知挑战 (Barnes 和 Stamper, 2008 (https://arxiv.org/html/2605.16207#bib.bib2))。嵌套连接词增加了认知负荷,使得提取进一步推导所需的命题更加困难,随着规则复杂度增加,表现下降 (Johnson-Laird 和 Wason, 1970 (https://arxiv.org/html/2605.16207#bib.bib12))。在逻辑证明辅导中,学生在包含嵌套表达式的步骤上花费更多时间并推导更多不必要的命题 (Shabrina 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib28))。结构嵌套也是LLM在命题证明构造中出错的有力预测因子,错误步骤与更长、更复杂的父语句相关,这一现象在不同模型和提示条件下均存在 (Tithi 等人, 2025 (https://arxiv.org/html/2605.16207#bib.bib33))。证明步骤位置也带来了额外挑战。早期步骤需要推理多个有效延续,而后期步骤则限制了剩余推导 (Shabrina 等人, 2024 (https://arxiv.org/html/2605.16207#bib.bib28))。因此,我们考察诊断失败是否由步骤复杂性、证明位置或模型特定因素驱动(第4节 (https://arxiv.org/html/2605.16207#S4))。
## 3 数据集与知识图谱
### 3.1 任务表述
一个命题逻辑证明问题定义为元组 (P,C)(\mathcal{P},C),其中 P=p1,...,pn\mathcal{P}=\{p_1,\ldots,p_n\} 是前提(假设为真的语句)集合,CC 是目标结论。一个证明状态 σ=(P,I,C)\sigma=(\mathcal{P},I,C) 表示证明的进展,其中 II 是通过应用推理规则 r∈Rr\in R 到 P∪I\mathcal{P}\cup I 中的语句而推导出的有序中间语句集合。初始时,I=∅I=\emptyset。推理规则的完整列表见表4 (https://arxiv.org/html/2605.16207#A1.T4)(附录A (https://arxiv.org/html/2605.16207#A1))。在本研究中,我们考察单步预测:通过精确应用一条推理规则,从 P∪I\mathcal{P}\cup I 中推导出最优下一步(语句),以最小化到目标结论 CC 的剩余推导距离。我们将任务限制为单步预测以及相应的反馈生成和评估。
### 3.2 数据集
为了生成单步解-反馈对,我们使用了来自一所美国大型大学2023年春季离散数学本科课程中部署的命题逻辑辅导系统的516个独特证明状态 (Barnes 和 Stamper, 2008 (https://arxiv.org/html/2605.16207#bib.bib2))。这些状态来自32个证明问题,跨越五个不同难度的练习级别(入门到专家),提供了上下文特定和按需的提示,我们称之为“解上下文”。级别1(前测)和级别7(后测)因不提供提示而被排除。每个实例在 (P,I,C)(\mathcal{P},I,C) 三元组层面上是唯一的,以确保不同的证明状态。示例证明状态如图2 (https://arxiv.org/html/2605.16207#S1.F2) 和图7 (https://arxiv.org/html/2605.16207#A4.F7) 所示。表5 (https://arxiv.org/html/2605.16207#A2.T5)(附录B (https://arxiv.org/html/2605.16207#A2))总结了数据在辅导系统难度级别上的分布,辅导系统图示见附录C (https://arxiv.org/html/2605.16207#A3)。
**步骤复杂性:** 为进一步描述数据集中证明状态的推理难度,我们还提供了步骤复杂性,计算为推导表达式中运算符和嵌套结构的加权和。关于计算复杂性的详细信息见附录E.1 (https://arxiv.org/html/2605.16207#A5.SS1)。在我们的数据中,步骤复杂性范围从低到高,反映了不同层次的推理需求。相似文章
大多数大语言模型评估工具是否仍然过于侧重提示词?
作者质疑当前的 LLM 评估工具是否过于关注孤立的提示词,而忽视了完整的工作流程和智能体交互,并指出逐步的准确性可能会掩盖生产环境中整体行为的偏差。
言行而非推理:定位LLM智能体中的忠实度缺口
本文通过使用德州扑克作为受控环境,将LLM智能体中的忠实度缺口分解为推理→结论和结论→行动两个步骤。研究发现,结论→行动步骤是可靠的,而推理→结论步骤是不一致的主要来源。
面向即时自适应反馈:通过知识驱动的LLM提升学生学习效果
本文提出一个框架,利用领域专家知识来引导大语言模型,根据学生的书面推理提供即时自适应反馈。在一门大规模大学课程中,该框架使学生成绩提升了超过80%。
是时候 REFLECT 了:我们能信任 LLM 评判者来评估基于证据的研究代理吗?
本文介绍了 REFLECT,这是一个用于评估 LLM 评判者在深度研究代理评估中可靠性的元评估基准。实验表明,当前的 LLM 评判者仍然不可靠,在推理、工具使用和报告质量失败方面的整体准确率低于 55%。
面向Lean定理证明的LLM反馈蒸馏
提出反馈蒸馏(Feedback Distillation),一种利用来自LLM的token级监督来改进复杂推理的训练方法,在Lean 4定理证明上进行了评估。该方法比GRPO更好地保持了多样性,且两种方法互补。