LLMs难以衡量区分不同水平学生的能力:阅读理解评估中题目区分度研究

arXiv cs.CL 论文

摘要

本文评估了42个大语言模型在测量阅读理解评估中题目区分度的能力,发现其与人类校准指标弱相关,并指出这是心理测量评估中的一个开放挑战。

arXiv:2606.18709v1 Announce Type: new 摘要:题目区分度是教育评估中一个基本的心理测量属性,用于衡量一道题目能否有效区分高水平和低水平的学生。虽然已有许多研究探索了大语言模型(LLMs)能否估计题目难度,但尚不清楚它们能否捕捉题目区分度。在本工作中,我们使用两种互补方法评估了42个专有和开放权重的LLM在零样本设置下的表现:直接区分度预测(模型根据题目内容显式估计区分度值)和基于响应的经典测试理论(Classical Test Theory, CTT)校准(将LLM的回答视为合成学生响应以计算区分度分数)。结果显示,直接预测与人类校准的区分度相关性较弱,表现最好的模型仅达到0.152的斯皮尔曼相关系数。基于响应的CTT校准提供了更强但仍有限的信号,全角色合成答卷池达到了0.241的斯皮尔曼相关系数。这些发现表明,题目区分度是基于LLM的心理测量评估中的一个开放挑战:当前的LLM包含非随机的区分度相关信号,但尚未可靠地捕捉评估题目如何区分人类学生。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:45

# LLMs难以衡量区分不同水平学生的指标:阅读理解评估中的项目区分度研究
来源:https://arxiv.org/html/2606.18709
韩晨¹,李明¹,²,王晨光³,梁怡君²,周大伟³,焦红²,周天怡¹¹MBZUAI²马里兰大学³弗吉尼亚理工大学
{han.chen, tianyi.zhou}@[email protected]

###### 摘要

项目区分度是教育评估中一项基本心理测量属性,用于衡量一个项目能否有效区分高水平和低水平学生。虽然已有多种研究探讨了大型语言模型(LLMs)是否能够估计项目难度,但它们能否捕捉项目区分度仍不清楚。在本研究中,我们采用两种互补方法,在零样本设置下评估了42个专有和开源权重LLMs:直接区分度预测(模型根据项目内容明确估计其区分度值)和基于反应的经典测量理论(CTT)校准(将LLM的回答视为合成学生响应,以计算区分度分数)。我们的结果表明,直接预测与人类校准的区分度之间一致性较弱:表现最佳的模型仅达到0.152的Spearman相关系数。基于反应的CTT校准提供了更强但仍有限的信号,其中全角色合成受访者池达到0.241的Spearman相关系数。这些发现凸显了项目区分度是LLM基础心理测量评估中的一个开放挑战:当前LLMs包含非随机的区分度相关信号,但它们尚未可靠地捕捉评估项目如何区分人类学生。

LLMs难以衡量区分不同水平学生的指标:阅读理解评估中的项目区分度研究

韩晨¹,李明¹,²,王晨光³,梁怡君²,周大伟³,焦红²,周天怡¹¹MBZUAI²马里兰大学³弗吉尼亚理工大学
{han.chen, tianyi.zhou}@[email protected]

## 1引言

NLP领域一个日益增长的问题是,大型语言模型是否不仅能作为任务解决者,还能作为人类行为的模型。我们通过项目区分度来研究这一问题,这是一个反映人类响应模式如何随能力水平变化的潜在总体统计量。在教育评估中,有效的项目不应仅通过难度来评估,还应通过它们揭示应试者能力差异的好坏程度来评估(Eignor,2013 (https://arxiv.org/html/2606.18709#bib.bib66); Haladyna and Rodriguez,2013 (https://arxiv.org/html/2606.18709#bib.bib65))。在经典测量理论(CTT)中,这一属性通常由项目区分度来捕捉,通常测量为项目正确性与总测试分数之间的相关性(Lord and Novick,2008 (https://arxiv.org/html/2606.18709#bib.bib67); Crocker and Algina,1986 (https://arxiv.org/html/2606.18709#bib.bib64); Moses,2017 (https://arxiv.org/html/2606.18709#bib.bib63))。高区分度值表明高能力应试者更有可能正确回答该项目,而低值或负值则表明能力水平之间的区分较弱或相反(Ebel,1972 (https://arxiv.org/html/2606.18709#bib.bib68); Moses,2017 (https://arxiv.org/html/2606.18709#bib.bib63); McCowan and McCowan,1999 (https://arxiv.org/html/2606.18709#bib.bib69))。

高区分度项目的响应模式紧密跟踪应试者的能力。这使得区分度对于测试构建至关重要,因为相似难度的项目在诊断价值上可能存在显著差异(Haladyna and Rodriguez,2013 (https://arxiv.org/html/2606.18709#bib.bib65); Moses,2017 (https://arxiv.org/html/2606.18709#bib.bib63))。

传统上,项目区分度是通过大规模预测试收集的人类响应数据来估计的,这使得新开发项目的校准成本高昂且耗时(Crocker and Algina,1986 (https://arxiv.org/html/2606.18709#bib.bib64); Moses,2017 (https://arxiv.org/html/2606.18709#bib.bib63); McCowan and McCowan,1999 (https://arxiv.org/html/2606.18709#bib.bib69))。大型语言模型(LLMs)的出现提供了一种潜在的替代方案,因为它们可以处理评估项目并提供关于项目质量和难度的可扩展判断(Li等人,2025b (https://arxiv.org/html/2606.18709#bib.bib32); Veeramani等人,2024 (https://arxiv.org/html/2606.18709#bib.bib71); Li等人,2025a (https://arxiv.org/html/2606.18709#bib.bib1))。然而,先前的工作主要集中在LLMs能否预测项目难度上,通常定义为应试者正确回答项目的可能性(AlKhuzaey等人,2024 (https://arxiv.org/html/2606.18709#bib.bib70); Yaneva等人,2024 (https://arxiv.org/html/2606.18709#bib.bib3); Li等人,2025a (https://arxiv.org/html/2606.18709#bib.bib1))。LLMs能否预测项目区分度仍不清楚。这个问题很重要,因为区分度捕捉了项目质量的一个独特方面:项目如何按能力区分应试者,而非整体难度(Crocker and Algina,1986 (https://arxiv.org/html/2606.18709#bib.bib64); Moses,2017 (https://arxiv.org/html/2606.18709#bib.bib63))。

因此,我们研究当前LLMs是否能在零样本设置下从阅读理解项目内容中估计经验性项目区分度值(Säuberli等人,2025b (https://arxiv.org/html/2606.18709#bib.bib73))。这个问题难以大规模研究,因为公开可用的评估数据集很少包含来自人类预测试的项目级区分度值,因为此类统计数据需要收集真实应试者的响应数据。因此,我们使用剑桥多项选择题阅读数据集(Mullooly等人,2023 (https://arxiv.org/html/2606.18709#bib.bib2)),因为它提供了少数可用设置之一,将阅读理解项目与项目级心理测量统计数据(包括区分度值)配对(Liusie等人,2023 (https://arxiv.org/html/2606.18709#bib.bib72))。这一设置使我们能够比较LLM生成的区分度估计与经验性人类校准区分度值,从而诊断人机区分度对齐,同时认识到适当人类校准数据的有限可用性。

具体来说,在本工作中,我们遵循Li等人(2025a (https://arxiv.org/html/2606.18709#bib.bib1))的方法评估两种互补方法。首先,直接区分度预测:LLMs获得完整的项目内容(包括正确答案),并被要求预测区分度值。这评估了LLMs能否明确判断项目如何区分高水平和低水平应试者(Crocker and Algina,1986 (https://arxiv.org/html/2606.18709#bib.bib64); Moses,2017 (https://arxiv.org/html/2606.18709#bib.bib63))。其次,基于反应的校准:LLMs在无法访问正确答案的情况下回答项目。然后,我们将其输出视为合成响应,并应用与人类响应数据相同的CTT原理,从其正确性模式中计算项目区分度(Crocker and Algina,1986 (https://arxiv.org/html/2606.18709#bib.bib64); Moses,2017 (https://arxiv.org/html/2606.18709#bib.bib63); Säuberli等人,2025b (https://arxiv.org/html/2606.18709#bib.bib73); Maeda,2025 (https://arxiv.org/html/2606.18709#bib.bib74))。对于这两种方法,我们将无角色基线与低、中、高能力模拟设置进行比较,以评估能力条件模拟如何影响LLM估计与经验性项目统计数据之间的对齐(Säuberli等人,2025b (https://arxiv.org/html/2606.18709#bib.bib73); Maeda,2025 (https://arxiv.org/html/2606.18709#bib.bib74))。

我们的贡献有三方面。(1) 据我们所知,本工作是项目区分度人机对齐最早的系统性研究之一,将该任务定义为测试LLMs能否从项目内容中建模潜在的、能力条件的人类响应行为。(2) 我们将焦点从广泛研究的项目难度预测问题转移,并强调项目区分度是评估质量中一个未被充分探索但至关重要的维度。(3) 我们比较了显式区分度预测与基于反应的CTT校准在不同能力模拟下的表现,提供了关于LLMs在面向区分度的项目分析及潜在的LLM辅助教育评估工作流程中既有前景又有局限性的系统性证据。

## 2相关工作

先前关于项目质量的工作主要使用响应数据、文本特征、机器学习模型以及最近的LLM基础信号来研究项目难度预测(Hambleton等人,1991 (https://arxiv.org/html/2606.18709#bib.bib24); DeMars,2010 (https://arxiv.org/html/2606.18709#bib.bib23); Sano,2015 (https://arxiv.org/html/2606.18709#bib.bib26); Loukina等人,2016 (https://arxiv.org/html/2606.18709#bib.bib25); Devlin等人,2019 (https://arxiv.org/html/2606.18709#bib.bib29); He等人,2021 (https://arxiv.org/html/2606.18709#bib.bib30); Benedetto,2023 (https://arxiv.org/html/2606.18709#bib.bib21); Rogoz and Ionescu,2024 (https://arxiv.org/html/2606.18709#bib.bib33); Zotos等人,2024 (https://arxiv.org/html/2606.18709#bib.bib35); Li等人,2025b (https://arxiv.org/html/2606.18709#bib.bib32); Feng等人,2025 (https://arxiv.org/html/2606.18709#bib.bib34))。近年来的系统性综述进一步总结了基于文本的项目难度建模作为跨经典机器学习、神经模型和LLM基础方法的成熟研究方向(Peters等人,2025 (https://arxiv.org/html/2606.18709#bib.bib84))。然而,仅靠难度不足以评估项目质量,因为困难的项目不一定能区分学生的能力。项目区分度通常通过项目-总分相关性或IRT斜率参数来衡量,捕捉项目如何按能力区分学生,但在LLM基础的项目质量估计中受到的关注较少(DeMars,2010 (https://arxiv.org/html/2606.18709#bib.bib23); Lord,2012 (https://arxiv.org/html/2606.18709#bib.bib45); Embretson and Reise,2025 (https://arxiv.org/html/2606.18709#bib.bib46); Han等人,2025 (https://arxiv.org/html/2606.18709#bib.bib61))。同时,基于LLM的学生模拟已在教育领域得到探索,包括用于项目校准的合成响应生成(Markel等人,2023 (https://arxiv.org/html/2606.18709#bib.bib47); Park等人,2023 (https://arxiv.org/html/2606.18709#bib.bib41), 2024 (https://arxiv.org/html/2606.18709#bib.bib58); Liu等人,2025 (https://arxiv.org/html/2606.18709#bib.bib56)),但最近的研究认为模拟的学生行为仍可能与真实学生响应模式不一致(Hayakawa and Saggion,2024 (https://arxiv.org/html/2606.18709#bib.bib57); Säuberli等人,2025a (https://arxiv.org/html/2606.18709#bib.bib60); Srivatsa等人,2025 (https://arxiv.org/html/2606.18709#bib.bib59))。因此,我们通过更严格的人类项目区分度视角来评估LLMs,询问它们是否不仅捕捉哪些项目困难,还捕捉哪些项目能有效按技能水平区分学生。*完整的相关工作部分见附录A (https://arxiv.org/html/2606.18709#A1)*。

## 3数据集与问题表述

### 3.1数据集与任务描述

我们研究多项选择阅读理解评估的项目级区分度预测。给定一个项目,目标是预测该项目区分高水平和低水平应试者的程度。我们使用剑桥多项选择题阅读数据集(Mullooly等人,2023 (https://arxiv.org/html/2606.18709#bib.bib2)),目标标签是从学生预测试中获得的人类校准项目区分度值。我们实验中使用的数据集包含来自120个剑桥阅读理解任务的793个项目记录。每个项目包括文章、问题题干、四个答案选项、正确答案以及心理测量统计数据,包括项目难度分数和CTT导出的区分度分数。设

D={\(x_i, a_i^*, y_i\)}_{i=1}^N表示数据集,其中x_i是完整的项目上下文,包括文章、问题和答案选项;a_i^*是真实答案;y_i是人类导出的项目区分度标签。

在经典测量理论(CTT)下,区分度计算为项目正确性与总测试分数之间的点双列相关性:

y_i = corr(v_i, s),其中v_i∈{0,1}表示某个考生是否正确回答了项目i,s表示该考生的总测试分数。较大的正值表示更好的区分度,因为高分考生更有可能正确回答该项目,而接近零的值表示高分与低分考生之间的区分较弱。

我们评估两种基于LLM的方法。在直接区分度预测中,模型接收项目上下文和真实答案,然后输出一个区分度分数。这测试了LLMs能否判断项目如何分离学生能力水平。在基于反应的CTT校准中,模型在无法访问真实答案的情况下回答每个项目。我们将所得答案转换为二值正确性值,并使用它们构建合成响应矩阵,用于第5.1节中的项目区分度预测。

### 3.2学生模拟

为了检验LLMs能否捕捉依赖于能力的项目行为,我们在四种能力配置下评估每个模型:

P={p_0, p_low, p_mid, p_high}。基线配置p_0不使用明确的学生角色,反映模型的默认行为。对于p_low、p_mid和p_high,LLM分别模拟低、中、高能力的剑桥英语应试者。

在直接区分度预测中,这些模拟的学生角色测试低、中、高能力的视角是否影响模型的区分度估计。在直接回答中,模拟的角色生成条件于能力的响应模式,使我们能够检查模拟的受访者是否产生更接近真实学生观察到的区分度估计。详细的模拟提示见附录C。

### 3.3实现细节

#### 模型与推理。

我们评估42个专有和开源权重LLM,以检查区分度对齐是否因模型系列和能力水平而异。专有模型包括来自OpenAI模型系列的GPT-3.5-Turbo(OpenAI,2024b)、GPT-4o-mini(OpenAI,2024a)、GPT-4o(Hurst等人,2024)、GPT-4.1-mini和GPT-4.1(OpenAI,2025b)、GPT-o4-mini(OpenAI,2025c)、GPT-5(OpenAI,2025a)和GPT-5.5(OpenAI,2026);以及Claude 3.5 Haiku(Anthropic,2024)和Claude 3.7 Sonnet(Anthropic,2025)从Anthropic模型系列;Gemini

相似文章

LLMs 未显示出个体化元认知迹象

arXiv cs.LG

本文研究了前沿大语言模型是否表现出个体化元认知——即超越共享信号评估自身项目级别能力的能力。通过对20个模型和六个基准进行因子分析和成对校准,作者未发现此类元认知的证据;置信度差异归结为一个单一的共享难度因子,表明模型依赖于共同的难度信号而非模型特定的自我认知。

探索大语言模型在中文抽象语言掌握中的能力边界

arXiv cs.CL

本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。