LLM推理轨迹中的认知片段实现可解释的人类题目难度预测
摘要
介绍了Epi2Diff,一个将LLM推理轨迹映射为认知片段以预测人类题目难度的框架,其性能优于基线方法,并提供可解释的过程证据。
arXiv:2606.28186v1 公告类型:新
摘要:预测人类题目难度是教育评估的核心,可靠的估计有助于公平性和有效的测试构建。现有方法通常依赖于昂贵的人类校准或题目级别的文本表示,对于使题目变得困难的认知过程提供的证据有限。我们认为,难度不仅应被视为题目文本的属性,也应被视为题目引发的问题解决负担的可观察结果。大型推理模型(LRM)通过推理轨迹提供了可扩展的过程证据,但此类证据必须结构化以支持可解释的建模。为此,我们引入了Epi2Diff(从片段到难度),一个将LRM推理轨迹映射到认知基础的片段序列的框架。这些片段将轨迹段分组为功能性的问题解决状态,从而可以通过推理规模、努力分配和状态转换来建模难度。Epi2Diff提取紧凑的片段动态特征,并将其与语义题目表示相结合,用于人类难度预测。在四个真实世界的人类难度数据集上的实验表明,Epi2Diff始终优于强基线方法,包括微调的小型语言模型、LLM上下文学习和有监督的LLM适应。在SAT衍生的分类基准测试中,Epi2Diff相比有监督的LLM微调基线平均相对提升8.1%。进一步的分析表明,较难的题目会引发更费力、更迭代、更以执行为中心的片段动态,而不仅仅是更长的响应。这些结果表明,LRM推理轨迹中的认知片段为人类题目难度提供了具有预测性和可解释性的过程表示,为推理模型的教育测量提供了新视角。
查看缓存全文
缓存时间: 2026/06/29 05:25
# 大型语言模型推理痕迹中的认知片段助力可解释的人类项目难度预测 来源:https://arxiv.org/abs/2606.28186 查看PDF (https://arxiv.org/pdf/2606.28186) > 摘要:预测人类项目难度是教育评估的核心,可靠的估计有助于公平性和有效的测试构建。现有方法通常依赖于昂贵的人类校准或基于项目文本的表征,提供的关于使项目变得困难的认知过程的证据有限。我们认为,难度不仅应被视为项目文本的属性,还应被视为项目所引发的问题解决负担的可观察结果。大型推理模型(LRMs)通过推理痕迹提供可扩展的过程证据,但此类证据需要结构化以支持可解释的建模。为此,我们引入了Epi2Diff(Episode to Difficulty,片段到难度),这是一个将LRM推理痕迹映射为基于认知的片段序列的框架。这些片段将痕迹分段归纳为功能性的问题解决状态,从而能够通过推理规模、精力分配和状态转换来建模难度。Epi2Diff提取紧凑的片段动态特征,并将其与语义项目表示相结合,用于人类难度预测。在四个真实世界的人类难度数据集上的实验表明,Epi2Diff始终优于强基线方法,包括微调的小型语言模型、LLM上下文学习和有监督的LLM适应。在基于SAT的分类基准上,与有监督的LLM微调基线相比,Epi2Diff实现了平均8.1%的相对提升。进一步分析表明,更困难的项目会引发更费力、更迭代且以实现为中心的片段动态,而不仅仅是更长的响应。这些结果表明,LRM推理痕迹中的认知片段为人类项目难度提供了一种具有预测性和可解释性的过程表示,为使用推理模型进行教育测量提供了新视角。 ## 提交历史 来自:陈光(王晨光)\[查看电子邮件 (https://arxiv.org/show-email/eee6397a/2606.28186)\] **\[v1\]**2026年6月26日星期五 15:32:17 UTC(3,478 KB)
相似文章
HyperLens:利用细粒度置信度轨迹量化大型语言模型的认知努力
本文介绍了 HyperLens,一种高分辨率探针,可通过追踪层间的细粒度置信度轨迹来量化大型语言模型(LLMs)的认知努力。研究表明,复杂任务需要更高的认知努力,并展示了监督微调(SFT)如何降低这种努力,从而可能导致性能下降。
大语言模型何时进行推理?基于熵相变的动力系统视角
本文探讨了思维链推理在何时对大语言模型有益,表明早期熵动力学能够可靠地指示推理效用,并介绍了EDRM,这是一个轻量级、无需训练的框架,可自适应选择推理策略,在保持或提升准确率的同时显著节省token。
打破自回归诅咒:动态认知熵编排的可擦除强化学习用于LLMs
本文提出E³RL,一种使用动态认知熵阈值的强化学习方法,使LLMs能够在生成过程中切除局部逻辑缺陷,克服长程推理中的自回归诅咒,并在AIME等数学推理基准上取得最先进的结果。
人类放弃,推理模型坚持:分离难度登记与思考分配
本文分离了大型推理模型(LRMs)和人类中的难度登记与思考分配,发现LRMs在答错的问题上花费更多token,而人类在失败上花费更少时间,揭示了尽管跨项目难度相关性相似但项目内模式相反。
解码推理型LLM中隐藏的欺骗:用于欺骗审计的激活解释器
提出了STATEWITNESS,一种用于审计推理型LLM中欺骗的激活解释器,相比现有监测器取得了显著改进,并提供了可供人工检查的证据。