adaptive-assessment

#adaptive-assessment

生成-评估一致性：LLM驱动自适应评估的必要效度标准

arXiv cs.AI ↗ · 2026-05-20 缓存

介绍了生成-评估一致性（GEA），这是一种用于LLM驱动自适应评估的效度标准，并在一个两阶段自适应测试中对其进行了测量，发现该模型恢复了大约一半的预期方差，且存在系统性偏差。

0 人收藏 0 人点赞