adaptive-assessment

标签

Cards List
#adaptive-assessment

生成-评估一致性:LLM驱动自适应评估的必要效度标准

arXiv cs.AI · 2026-05-20 缓存

介绍了生成-评估一致性(GEA),这是一种用于LLM驱动自适应评估的效度标准,并在一个两阶段自适应测试中对其进行了测量,发现该模型恢复了大约一半的预期方差,且存在系统性偏差。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈