harm-categories

#harm-categories

利用详细的宪法定义与AI驱动评估提升标注一致性

arXiv cs.CL ↗ · 2026-05-26 缓存

本文提出了一种AI驱动的工作流，该工作流为内容审核类别编写详细的宪法定义，并使用前沿大语言模型对其进行解释，以实现更一致的标注。在骚扰、仇恨言论和非暴力犯罪三个类别上的评估表明，与段落式定义相比，该方法将跨模型不一致性降低了最多57倍。

0 人收藏 0 人点赞