标签
本文提出为LLM学习评估技能,以自动化评分任务的评分标准构建,达到与专家编写的评分标准相当的性能,且无需人工编写的示例。
本研究分析了评分标准(rubrics)的修改(例如从整体性标准转变为分析性标准)如何影响人类评分者与 AI 自动评分者之间的一致性。研究结果表明,提供示例和减少偏见有助于提高一致性,而更高的复杂性往往会降低一致性。
# 基于文本与音频分类器的学生异常言语响应检测 来源:[https://arxiv.org/html/2604.16717](https://arxiv.org/html/2604.16717) \(论文将于2026年4月10日在国家教育测量委员会会议上发表\) ###### 摘要 本文旨在填补自动言语响应评分(AVRS)使用中的一项关键安全空白。我们提出了一种新颖的混合框架,用于识别存在心理困扰的学生,该框架结合了文本分类器与音频分类器;其中文本分类器经过训练以根据内容检测响