BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
item-discrimination
标签
Cards
List
#item-discrimination
LLMs难以衡量区分不同水平学生的能力:阅读理解评估中题目区分度研究
arXiv cs.CL
↗
· 5天前
缓存
本文评估了42个大语言模型在测量阅读理解评估中题目区分度的能力,发现其与人类校准指标弱相关,并指出这是心理测量评估中的一个开放挑战。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交