LLM推理轨迹中的认知片段实现可解释的人类题目难度预测

arXiv cs.CL 论文

摘要

介绍了Epi2Diff,一个将LLM推理轨迹映射为认知片段以预测人类题目难度的框架,其性能优于基线方法,并提供可解释的过程证据。

arXiv:2606.28186v1 公告类型:新 摘要:预测人类题目难度是教育评估的核心,可靠的估计有助于公平性和有效的测试构建。现有方法通常依赖于昂贵的人类校准或题目级别的文本表示,对于使题目变得困难的认知过程提供的证据有限。我们认为,难度不仅应被视为题目文本的属性,也应被视为题目引发的问题解决负担的可观察结果。大型推理模型(LRM)通过推理轨迹提供了可扩展的过程证据,但此类证据必须结构化以支持可解释的建模。为此,我们引入了Epi2Diff(从片段到难度),一个将LRM推理轨迹映射到认知基础的片段序列的框架。这些片段将轨迹段分组为功能性的问题解决状态,从而可以通过推理规模、努力分配和状态转换来建模难度。Epi2Diff提取紧凑的片段动态特征,并将其与语义题目表示相结合,用于人类难度预测。在四个真实世界的人类难度数据集上的实验表明,Epi2Diff始终优于强基线方法,包括微调的小型语言模型、LLM上下文学习和有监督的LLM适应。在SAT衍生的分类基准测试中,Epi2Diff相比有监督的LLM微调基线平均相对提升8.1%。进一步的分析表明,较难的题目会引发更费力、更迭代、更以执行为中心的片段动态,而不仅仅是更长的响应。这些结果表明,LRM推理轨迹中的认知片段为人类题目难度提供了具有预测性和可解释性的过程表示,为推理模型的教育测量提供了新视角。
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:25

# 大型语言模型推理痕迹中的认知片段助力可解释的人类项目难度预测
来源:https://arxiv.org/abs/2606.28186
查看PDF (https://arxiv.org/pdf/2606.28186)

> 摘要:预测人类项目难度是教育评估的核心,可靠的估计有助于公平性和有效的测试构建。现有方法通常依赖于昂贵的人类校准或基于项目文本的表征,提供的关于使项目变得困难的认知过程的证据有限。我们认为,难度不仅应被视为项目文本的属性,还应被视为项目所引发的问题解决负担的可观察结果。大型推理模型(LRMs)通过推理痕迹提供可扩展的过程证据,但此类证据需要结构化以支持可解释的建模。为此,我们引入了Epi2Diff(Episode to Difficulty,片段到难度),这是一个将LRM推理痕迹映射为基于认知的片段序列的框架。这些片段将痕迹分段归纳为功能性的问题解决状态,从而能够通过推理规模、精力分配和状态转换来建模难度。Epi2Diff提取紧凑的片段动态特征,并将其与语义项目表示相结合,用于人类难度预测。在四个真实世界的人类难度数据集上的实验表明,Epi2Diff始终优于强基线方法,包括微调的小型语言模型、LLM上下文学习和有监督的LLM适应。在基于SAT的分类基准上,与有监督的LLM微调基线相比,Epi2Diff实现了平均8.1%的相对提升。进一步分析表明,更困难的项目会引发更费力、更迭代且以实现为中心的片段动态,而不仅仅是更长的响应。这些结果表明,LRM推理痕迹中的认知片段为人类项目难度提供了一种具有预测性和可解释性的过程表示,为使用推理模型进行教育测量提供了新视角。

## 提交历史

来自:陈光(王晨光)\[查看电子邮件 (https://arxiv.org/show-email/eee6397a/2606.28186)\] **\[v1\]**2026年6月26日星期五 15:32:17 UTC(3,478 KB)

相似文章

大语言模型何时进行推理?基于熵相变的动力系统视角

arXiv cs.LG

本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。