标签
本文回顾了过去十年中人工智能系统工程(AI4SE)和系统工程人工智能(SE4AI)的进展,识别出五个关键研究空白,并提供了一个人机一致性数据集和用于相关性判断的网络探索工具。
本研究分析了评分标准(rubrics)的修改(例如从整体性标准转变为分析性标准)如何影响人类评分者与 AI 自动评分者之间的一致性。研究结果表明,提供示例和减少偏见有助于提高一致性,而更高的复杂性往往会降低一致性。