item-discrimination

标签

Cards List
#item-discrimination

LLMs难以衡量区分不同水平学生的能力:阅读理解评估中题目区分度研究

arXiv cs.CL · 5天前 缓存

本文评估了42个大语言模型在测量阅读理解评估中题目区分度的能力,发现其与人类校准指标弱相关,并指出这是心理测量评估中的一个开放挑战。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈