错误作为透镜:通过合成误解生成探究LLM推理
摘要
本文提出了一个框架,使用LLMs生成针对性的合成误解,这些误解基于从布鲁姆分类学改编的五类分类法,旨在解决教育研究中标记学生错误数据稀缺的问题。
arXiv:2605.29007v1 公告类型:新
摘要:个性化辅导、教师培训和教育研究需要获取\emph{针对性}的合成误解,但隐私和IRB限制使得真实学生错误的标注语料库稀缺。LLMs原则上可以大规模生成合成错误,但对于现代LLM来说,生成任意错误答案很容易,而要生成与特定认知失败模式匹配的错误答案则困难得多。我们提出了一个框架,根据从修订版布鲁姆分类学改编的五类分类法生成针对性错误,并在TheoremQA数据集的问题上进行了评估。生成代理(GA)根据目标类别起草候选错误解决方案,检查代理(EA)判断草稿是否错误且与类别一致。该框架提供了一种可复用的方法,用于在缺乏真实学生语料库的情况下构建按类别分层的合成错误数据集。作为次要诊断,针对性错误生成比自由形式错误答案生成困难得多,并且答案基础化比扩展示例或外部教科书内容贡献更大。
查看缓存全文
缓存时间: 2026/05/29 09:14
# 通过合成错误概念生成探测LLM推理能力
来源:https://arxiv.org/html/2605.29007
###### 摘要
个性化辅导、教师培训和教育研究需要获取*针对性的*合成错误概念,但隐私和IRB限制使得真实学生错误的有标签语料库极为稀缺。原则上,LLM可以大规模生成合成错误,但对现代LLM来说,生成任意错误答案很容易,而生成与*特定*认知失效模式相匹配的错误则困难得多。我们提出了一个框架,能够生成针对五类分类法(改编自修订版布鲁姆分类学)的错误,并在TheoremQA数据集的问题上进行了评估。一个生成代理(GA)根据目标类草拟候选错误解答,一个检查代理(EA)判断草稿是否错误且与类一致。该框架提供了一种可复用的方法,用于在无法获取真实学生语料库的学科中构建按类分层合成错误数据集。作为次要诊断发现,针对性错误生成比自由形式错误答案生成困难得多,并且答案锚定比扩展示例或外部教材内容贡献更大。
**错误作为透镜:通过合成错误概念生成探测LLM推理能力**
Xinming Yang
纽约市立大学研究生中心
Jun Li
纽约市立大学皇后学院 & 纽约市立大学研究生中心
## 1 引言
教育技术依赖于获取*针对性的*错误概念。个性化辅导系统(其有效性依赖于根据学习者的具体弱点校准练习)需要学生可能犯的错误的详细示例,以便将练习集中在薄弱领域而非已掌握的材料上。教师培训项目使用常见错误概念目录来训练教师识别学生作业中的错误,实证证据表明,教师识别可能学生错误概念的能力比仅掌握正确答案更能预测课堂学习成效。教育研究人员研究错误概念如何形成、持续和修复,需要按认知类型分层的受控错误集合。考试题目设计者同样需要与合理学生推理相对应的干扰选项,而非任意错误答案,否则标准心理测量模型会系统性地误估学生理解水平。
所有这些用途的共同瓶颈是数据。在训练或评估下游工具所需规模下的真实学生错误极难获得。隐私法规、IRB限制以及存储可识别评估数据的伦理敏感性,使得几乎所有学科中都缺乏大规模有标签的学生错误语料库:学习分析工作已反复将同意、隐私、去标识化、数据治理和披露限制确定为大规模使用学生记录的主要障碍。最近关于开放学习分析数据集的调查也发现,公开发布的教育数据集仍是例外而非常态,并且在不同学科领域分布不均。更重要的是,对于本文而言,即使是现有的语料库也极少标注错误答案背后的认知机制,即它是反映了注意力疏忽、概念缺失、不合适的解题过程,还是结构性的框架错误。
*因此,合成学生错误*为这些应用中的许多提供了可扩展的路径,类似于之前将合成教育数据作为受限学生记录的隐私保护替代品的做法。一个实用的合成错误生成器必须至少满足:生成的错误答案(i)确实错误,(ii)与*指定的*认知失效模式一致而非任意错误,以及(iii)跨学科稳定,以便同一方法可复用于原型之外的课程。核心实证问题是现代LLM能否同时满足这三个约束:真实学生错误并非随机,而是反映了表面形式微妙的可识别认知缺陷。
本文提出了一个满足这三个约束的框架,并将其用作测量工具。我们采用了一个改编自修订版布鲁姆分类学的五类错误分类法,并构建了一个双代理系统:生成代理(GA)草拟基于目标类的候选错误解答,检查代理(EA)判断草稿是否错误且与类一致。实施研究变化了三个设计选择:GA是否看到正确解答、失败的尝试是否反馈回下一次生成、以及类判断是由提示模型完成还是由基于事后人工修正微调的分类器完成。该框架提供了一种可复用的方法,用于在无法获取真实学生语料库的学科中构建针对性错误数据集。在此过程中,我们得到一个次要观察:针对性错误生成比不受控的错误答案生成困难得多,并且在同一个后端上,几种管道变体的成功率相近。影响最大且最一致的设计轴是EA在基于答案锚定生成之上的反馈循环,尤其是在较弱的后端上;扩展的少量示例和外部教材摘录在此基础上并未带来明显改进。
#### 贡献。本文提供了一个主要的方法论贡献和一个次要的实证观察:
1. 1. 一个针对分类法的可扩展合成错误生成框架。我们引入了一个双代理管道(GA作为草拟者,EA作为判断者),保持生成器为预训练,并在使用时将人工监督转移到判断侧。我们发布该框架、基于提示的EA和微调EA变体,以及一个包含1,800条记录(问题、目标类、响应)的可复现产物。
2. 2. 次要观察:针对性错误生成是一个可控性问题。八个配置显示针对性错误比自由形式错误困难得多;将GA答案锚定解释了大部分后端间的质量差距;在强大后端上,几个管道的结果集中在狭窄范围内。我们将针对性错误率定位为基于正确性的推理基准的补充。
总之,这些贡献推进了一种观点:NLP进展中评估方法同样重要,甚至等同于基准准确率:针对性错误生成率暴露了仅基于正确性的基准所遗漏的行为,而该框架提供了将这种测量用于构建下游教育应用的实用工具。
## 2 相关工作
#### LLM推理评估。思维链提示、过程奖励建模和自一致性解码已经确立,中间推理质量与最终答案准确性部分可解耦:不同的推理链可以到达相同答案,步骤质量与最终正确性可以分别评分。探测方法(忠实性测试和扰动研究)询问模型是否真正计算了它们所表述的中间步骤。我们的框架扩展了这一方向:不是扰动输入,而是要求模型以受控的、符合分类法的方式扰动*解答本身*。
#### 错误概念检测与教育错误分析。错误概念检测在教育与智能辅导系统中有着悠久历史,近期也出现在针对数学应用题、编程练习、物理问题解答以及更广泛科学问题的NLP应用中。大多数现有工作对预先存在的学生回答进行分类,或学习预测下一个可能的错误;相对较少的工作研究LLM本身能否大规模*生成*分类上一致的学生错误。我们的框架是补充性的:Sun等人、Otero等人和Oli等人以真实学生回答为输入,分类或诊断潜在错误;这些工作均不按需为指定失效模式生成新的(问题、目标类、响应)三元组;它们假设学生回答已经存在。我们则使用预训练GA作为受控锚定下的替代学生,缓解语料库瓶颈。
#### LLM作为判断者与多代理评估。LLM-as-Judge方法和自我精炼循环已证明辅助模型可以有效评估和修正主模型输出。我们的GA/EA对是这一思想的轻量级双代理实例,专门用于错误类型判断,有意避免大型多代理框架的复杂性:两个代理是解耦草拟与判断所需的最小数量,且我们发现对于本文诊断问题无需额外代理。
#### 合成数据与错误数据集。合成数据构建已成为训练数学推理器和代码模型的标准方法。相比之下,教育错误数据集则稀缺:广泛使用的基准如GSM8K、TheoremQA和APPS仅提供问题-答案对,没有错误答案失败方式的标注;过程奖励数据集如PRM800K则将推理步骤标记为正确或错误,而未识别底层认知错误类型。我们贡献了一种构建带有可控错误类标签的数据集的方法。
## 3 错误分类法
我们采用修订版布鲁姆认知过程分类法(即记忆、理解、应用、分析、评价、创造),并使用由此派生出的错误分类,将每个认知过程映射到一种特征性失效模式。完整的七类分类法包括两个描述次优但本质上仍正确回答的类别(缺乏创新、质量差距);我们略去这两类,因为它们不对应于学生通过连贯错误概念得到错误最终答案的情况。保留的五类总结于表1。
**表1:全文使用的五类学生错误分类法。源分类法中的第0类(缺乏创新)和第6类(质量差距)因描述的是*次优正确*而非*错误*回答而被排除。**
该分类法为后续论文提供了受控词汇:一个“错误生成”任务现为三元组(问题,目标类,生成回答),评估者可以询问回答是否错误以及是否属于目标类。
## 4 GA/EA框架
回顾第1节,一个实用的合成错误生成器必须产生满足以下条件的回答:(i)确实错误,(ii)与指定目标类一致,(iii)跨学科稳定。单一的提示-生成步骤无法可靠地同时满足(i)和(ii):模型可能无意中正确解答问题,或产生错误答案但其失效模式与所请求的类不匹配。具体来说,我们进行了一个小型试点实验,要求GPT-5针对从TheoremQA(一个由领域专家策划的定理驱动QA数据集,涵盖数学、物理、EE/CS和金融)中抽取的20个问题中的每一个,结合5个目标类(共得到100个(问题,目标类)单元),生成一个目标类错误答案,并提供正确答案和类定义作为锚定。经作者检查生成的草稿,GPT-5在所有100个单元中有18%未能匹配请求的类,而在目标为结构盲点的20个单元中这一比例达到50%。引入LLM判断者可将整体不匹配率降至8%,结构盲点单元降至20%。这相当于判断步骤单独贡献了39%-60%的相对不匹配率降低。
因此,我们将草拟与判断解耦为两个预训练代理:一个优化用于生产性错误构建的生成代理(GA),和一个优化用于类条件过滤的检查代理(EA)。该框架以问题q和目标错误类c ∈ {1,...,5}为输入,返回一个EA已接受为类c实例的回答r。图1描绘了这一循环。EA拒绝漂移至邻近类的草稿并将其送回GA重试,最多尝试一定次数(本实验中为五次)。这种架构设计为与学科无关:GA和EA仅消耗问题文本和类定义,无学科特定模块,因此相同配置和提示可跨学科不变地转移。约束(iii)因此在设计层面得到满足;实际实现的跨学科*比率*在实践中并非不变,详见附录。相似文章
解释是否必要且充分?调优LLM用于可解释的虚假信息检测
本文提出了一种专门用于可解释虚假信息检测的LLM微调流水线,并介绍了一种数据合成方法LonsRex,用于生成必要且充分的解释,解决了仅基于标签正确性进行简单过滤的局限性。
当大语言模型学会持续犯错:合成欺骗线性表示的多模型研究
本文通过微调五个Transformer模型的诚实与欺骗变体,研究大语言模型中的合成不诚实行为,发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化,这对基于激活的监控具有重要意义。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
LGMT:基于逻辑的变形测试用于评估LLM推理可靠性
本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。
FALSIFYBENCH:利用规则发现游戏评估大语言模型的归纳推理能力
FalsifyBench 是一个用于评估大语言模型归纳推理能力的新型评测框架,灵感来源于 Wason 2-4-6 任务。在该框架中,智能体通过提出示例并接收反馈来发现隐藏的语义规则。对 12 个大语言模型的评估结果表明,推理模型的表现优于指令微调模型,而负面测试(即假设证伪)是决定成败的关键因素。