harm-categories

标签

Cards List
#harm-categories

利用详细的宪法定义与AI驱动评估提升标注一致性

arXiv cs.CL · 2026-05-26 缓存

本文提出了一种AI驱动的工作流,该工作流为内容审核类别编写详细的宪法定义,并使用前沿大语言模型对其进行解释,以实现更一致的标注。在骚扰、仇恨言论和非暴力犯罪三个类别上的评估表明,与段落式定义相比,该方法将跨模型不一致性降低了最多57倍。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈