标签
本文提出了一种AI驱动的工作流,该工作流为内容审核类别编写详细的宪法定义,并使用前沿大语言模型对其进行解释,以实现更一致的标注。在骚扰、仇恨言论和非暴力犯罪三个类别上的评估表明,与段落式定义相比,该方法将跨模型不一致性降低了最多57倍。