利用详细的宪法定义与AI驱动评估提升标注一致性

arXiv cs.CL 2026/05/26 04:00 论文

摘要

本文提出了一种AI驱动的工作流，该工作流为内容审核类别编写详细的宪法定义，并使用前沿大语言模型对其进行解释，以实现更一致的标注。在骚扰、仇恨言论和非暴力犯罪三个类别上的评估表明，与段落式定义相比，该方法将跨模型不一致性降低了最多57倍。

arXiv:2605.24247v1 Announce Type: new 摘要：许多自动化标注流程根据书面规范定义的类别对输入进行分类，内容审核是一个典型的应用场景。简单的类别定义不够详细，无法让标注人员生成这些流程所需的准确且一致的金标准标签。一个解决方案是编写一套规定性定义，能解决足够多的实际边界案例，使得标注人员无法与书面解释产生分歧。实际上，这种详细程度的定义超出了人类标注员工作记忆的容量，因此标注员会退而依赖直觉，导致标签偏离书面规则，在准确性和一致性上出现倒退。我们提出并论证了一种AI驱动工作流的有效性：AI辅助为每个类别编写一套宪法级别的定义，以足够详细地覆盖边缘案例；然后由前沿大语言模型在每个输入上解释这些定义，从而比人类阅读同一文档产生更一致、更准确的金标准标签。我们在三个内容审核类别（骚扰、仇恨言论、非暴力犯罪）上进行了评估，结果表明，与段落式定义相比，该方法将跨模型不一致性降低了最多57倍，跨模型分歧可以诊断规范中的缺陷，而人类则负责对每个类别的含义进行高层次决策，而非单个标注判断。在安全评估方面，我们引入了双轴公式，在完整对话中独立评估意图和内容，以便下游消费者可以针对任一轴或两轴采取行动。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:01

# 通过详细宪法定义与AI驱动评估提升标注一致性
来源：https://arxiv.org/html/2605.24247
###### 摘要

许多自动化标注流水线将输入分类为由书面规范定义的类别，内容审核是其中一项典型应用。简单的类别定义不足以让标注人员生成这些流水线所需的准确、一致的黄金标签。一种解决方案是编写一套规定性定义，解决足够多的实际边界案例，使标注人员无法对书面解释产生分歧。在实践中，这种详细程度的定义已超出人类标注者工作记忆的容量，因此标注者会依赖直觉，导致标签偏离书面规则，准确性和一致性反而下降。

我们提出并验证了一种AI驱动工作流的有效性：AI协助为每个类别编写一套“宪法”定义，该定义足够详细地涵盖边缘案例；同时，一个前沿LLM在每个输入上解释该宪法，从而比阅读同一文档的人类更一致、更准确地生成黄金标签。我们在三个内容审核类别（骚扰、仇恨言论、非暴力犯罪）上进行评估，结果表明，相较于段落式定义，该方法将跨模型不一致性降低了最高57倍。跨模型分歧可用于诊断规范缺口，而人类仅负责关于每个类别含义的高层决策，而非单个标注判断。在安全性评估方面，我们引入了一个双轴公式，在完整对话中独立评分意图和内容，使下游使用者可单独或同时基于任一轴采取行动。

---

提升标注一致性：通过详细宪法定义与AI驱动评估

Konstantin Berlin 与 Adam Swanda  
Cisco AI Defense  
{berlink, aswanda}@cisco.com

## 1 引言

构建、监控和改进检测系统依赖于定义精确且在标注者之间保持稳定的黄金标签。内容审核系统尤为突出：它将对话分类为骚扰、仇恨言论、非暴力犯罪等伤害类别，而定义上的微小差异就会导致标注率出现数量级波动。这些分类服务于多个下游使用者：实时拦截有害内容的安全护栏、生成训练数据的标注团队、衡量模型安全性的评估人员，以及向客户解释检测内容及原因的文档。所有这些使用者都依赖于基于共享类别定义的黄金标签，但已部署的分类体系通常用一两句话定义每个类别（附录C：https://arxiv.org/html/2605.24247#A3），每个下游使用者都从自身的先验理解中填补空白：LLM依赖训练数据，标注者依赖机构记忆，文档编写者依赖对类别名称的理解。

一个内容审核系统若拦截过多合法对话，就会被客户关闭，因此有害内容与仅为相关内容之间的边界是部署中的硬性要求。划定这一边界需要对边缘案例做出明确裁决，但简短的定义未解决这些裁决，只有在定义按实际流量规模验证时，必要的收窄才会显现。即使团队通过这一过程制定了内部一致的定义，也难以有效传达：例外情况不断累积，直至完整规范类似于法律条文，需要类别级别的专业知识才能解读。这种详细程度的规范超出了标注者在分类时的工作记忆容量（Sweller 等人，1998：https://arxiv.org/html/2605.24247#bib.bib13；Cowan，2001：https://arxiv.org/html/2605.24247#bib.bib14），而且问题更加复杂：标注者必须对每段对话应用分类体系中所有类别的规范，因此他们只能压缩成启发式方法，用自己的判断替代书面规则（Kahneman 与 Frederick，2002：https://arxiv.org/html/2605.24247#bib.bib15）。相邻类别进一步加大了难度：仇恨言论与骚扰共享针对个人的威胁，非暴力犯罪与诈骗共享操纵意图。

当来自不同供应商的两个LLM阅读同一简短定义，却对同一段对话产生分歧时，说明定义不完整：每个模型都退回到训练先验而非文档本身。补救措施不是共识标注（哪个模型正确？），而是更严格的规范（定义哪里不完整？）：编写一份足够精确的定义，使得合理的模型和标注者能够收敛，而不是聚合它们各自的先验。

我们的贡献如下：

- 我们提出了**宪法规范**作为一种方法，用于在需要根据书面类别定义进行大规模一致裁决的任务中生成黄金标签：每个类别一份文档，包含必要元素、决策逻辑、边界说明和示例，由前沿LLM在每个输入上解释并生成标签。我们基于 Constitutional AI（Bai 等人，2022：https://arxiv.org/html/2605.24247#bib.bib3）和 Constitutional Classifiers（Sharma 等人，2025：https://arxiv.org/html/2605.24247#bib.bib6），将同样的规则文档理念从训练时或运行时强制扩展到下游流程的黄金标签生成。
- 针对内容审核，我们引入了双轴公式，将意图与内容作为独立的二元标签，在整个对话上评分而非单个提示。
- 我们展示了一个AI驱动的编写与维护流水线：人类为每个类别策展一份宪法，AI则在最小监督下驱动分类、验证和优化。跨模型分歧可识别规范缺口，迭代优化循环将每个未解决案例转化为明确裁决。
- 我们验证了，在 HarmBench（Mazeika 等人，2024：https://arxiv.org/html/2605.24247#bib.bib5）上，三个LLM阅读宪法后产生的一致标签数高于三位人类标注者阅读同一文档，且LLM标签与人类专家裁决的一致性比任何较短定义都更高。
- 我们表明，在宪法下LLM生成的标签比在段落定义下跨前沿模型更一致，在 WildChat（Zhao 等人，2024：https://arxiv.org/html/2605.24247#bib.bib26）上跨模型不一致性降低了最高57倍。

宪法分类体系是 Swanda 等人（2025：https://arxiv.org/html/2605.24247#bib.bib17）所描述平台架构之下的定义层。

## 2 分类体系宪法

模型级别的宪法如“要乐于助人、诚实，不要协助制造武器”是一条行为原则，而非分类规范。我们的宪法与之前对该术语的使用（§5：https://arxiv.org/html/2605.24247#S5）不同：每个宪法是一份按类别划分的操作性规范，结构如表A1（https://arxiv.org/html/2605.24247#A1.T1）所示。LLM在每段对话上阅读完整文档，每条规则的存在都是因为删除它将留下一个未解决的边界案例，因此由文档而非标注者的先验来决定答案。

### 2.1 宪法结构

每份宪法是一份结构化的 Markdown 文档。骚扰宪法的行数超过300行。所有宪法都遵循相同的十组件结构（图1：https://arxiv.org/html/2605.24247#S2.F1；附录A中的表A1：https://arxiv.org/html/2605.24247#A1.T1 以骚扰宪法为例详细说明了每个组件）。

请参见图注：图1：宪法结构及下游集成。每个类别一份宪法即可生成分类提示、标注指南、客户文档和测试套件。宪法涵盖的类别包括有害内容、目标劫持（越狱技术）、数据隐私违规、操作空间利用以及持久性攻击。

### 2.2 意图轴与内容轴

每份宪法为每个类别定义了两个标签：**意图**（试图造成或获取伤害）和**内容**（对话中出现的有害材料）。先前的安全分类器并未将两者分离。Llama Guard（Inan 等人，2023：https://arxiv.org/html/2605.24247#bib.bib8）对提示和响应分类使用同一分类体系，用户与AI的区分通过任务指令而非类别定义本身来处理；BeaverTails（Ji 等人，2023：https://arxiv.org/html/2605.24247#bib.bib4）则为每个提示-响应对整体分配单一伤害标签集。

将意图与内容分离之所以重要，是因为它为每个部署提供了现有分类器无法提供的选择。考虑聊天机器人场景中的骚扰：用户要求助手起草一条关于同事的诽谤消息，无论模型是否遵从，都带有明显的骚扰意图；而用户要求同一聊天机器人总结一个公共论坛帖子，则不带任何这类意图，即使总结结果可能因底层帖子协调针对真实人物的虐待而呈现骚扰材料。面向消费者的聊天机器人可能根本不想对意图采取行动，因为提问本身并非违规，它只需阻止有害内容到达用户。而企业部署可能希望相反：记录每一次骚扰意图，以便安全团队在模型拒绝且未产生有害内容时也能调查重复违规者。若规范仅为每个类别生成一个标签，则这些情况会被合并在一起，下游使用者无法恢复规范从未做出的区分。在代理化部署中，这种分离变得更加重要：检索增强代理可以从被污染的记忆库中提取有害材料（Dong 等人，2025：https://arxiv.org/html/2605.24247#bib.bib31）；文档中的间接提示注入可以将良性的用户请求重定向为有害操作（Zhan 等人，2024：https://arxiv.org/html/2605.24247#bib.bib30）；在代理间通道中，一个模型的输出成为另一个模型的输入，攻击者和受害者角色轮番转换。

两个标签都在完整对话上评估，而非逐条消息，因为多轮攻击是逐渐积累有害方向的（Russinovich 等人，2025：https://arxiv.org/html/2605.24247#bib.bib19；Chang 等人，2025：https://arxiv.org/html/2605.24247#bib.bib18），而一个单独看起来良性的响应可能在给定前文积累后变得有害。意图与内容的四种组合携带不同的操作信号：意图无内容表示系统受到探测且模型拒绝；内容无意图表示在良性请求中引入了有害材料（无论是通过模型响应、检索到的文档还是工具输出）；两者均为正表示当系统发出或呈现了该材料（而非仅仅从用户处接收）时，安全护栏或流水线出现故障；两者均为负则涵盖干净对话，包括关于该主题的安全讨论。据我们所知，这是首个按类别的宪法规范将意图和内容定义为独立对话级别轴的方法。

### 2.3 定义整合

像“骚扰”这样的类别最初由三个互不关联的工件组成：公共分类体系中的两段描述、人工审核团队维护的详细标注工作簿（包含关于工作场所批评、公众人物、针对AI的挫败情绪等边缘案例裁决），以及嵌入在流水线代码中的分类提示（带有自身隐含的边界）。构建宪法意味着将这三个文档合并为一个：公共描述提供顶层定义，标注工作簿的边缘案例裁决提供边界说明和示例，分类提示的隐含逻辑被重写为带有必要元素的显式决策标准。当三个来源存在矛盾时（确实存在，例如“批评公众人物的职业表现是否算作骚扰”这类问题），我们暴露矛盾、进行辩论，并记录一个裁决，使得所有下游工件都继承该裁决。

## 3 验证与优化

### 3.1 宪法编写

宪法编写遵循当前在代理式代码编写中占据主导的“人类指导、AI执行”模式。人类识别问题（错误分类、客户提问无明确答案、跨类别的新攻击模式）并提供方向，例如“这不应被标记，这是专业批评”。然后AI修订相关宪法章节，对照文档其余部分检查一致性，并检查与其他宪法是否存在冲突。人类审查输出并接受、拒绝或重定向，而AI负责跨数百行规范的检查。当宪法发生变更时，所有下游工件（分类提示、标注指南、文档、测试套件）都会从其重新生成。

### 3.2 跨模型验证

理论上，审查者可以阅读完整宪法并手动检查每条规则之间的交互，但工作量巨大，而且任何残留的歧义在遇到实际流量之前都不会被发现。我们采用AI增强方式验证：使用多个来自不同供应商的前沿LLM作为独立裁判，在真实对话上运行宪法，并检查它们之间的分歧点。分歧点可精确定位规范中模糊或不完整的部分，将验证转化为针对性搜索而非穷尽式审查。

需要不同供应商的模型才能获得有意义的跨模型分歧：同族模型共享偏差，因此它们的一致并不能表明宪法无歧义。Panickssery 等人（2024：https://arxiv.org/html/2605.24247#bib.bib9）表明LLM评估者表现出系统性自我偏好偏差，Verga 等人（2024：https://arxiv.org/html/2605.24247#bib.bib10）表明来自不同族系的模型面板优于任何单一裁判。我们将分歧作为规范缺口的诊断工具，而非用于聚合的投票机制。

当模型在某段对话上产生分歧时，验证技能（附录G：https://arxiv.org/html/2605.24247#A7）将分歧追溯到宪法中的特定章节，诊断歧义，并起草针对性的补丁供人类审查；每轮循环都会将一个隐性裁决转化为显性裁决。

### 3.3 优化循环

每次验证运行都会生成一组排好序的补丁：具体的宪法章节前后对比编辑，并且关联触发它们的分歧。人类审查每个补丁，接受或修改，然后合并变更；之后宪法在同样的测试集上重新验证，以确认补丁解决了分歧且未引入回归。

优化也在整个分类体系层面进行：AI审计所有宪法之间的矛盾（两份宪法声称对同一输入负责）、缺口（类别边界之间无裁决的内容）以及不一致性（不同相关类别在保守性立场上的冲突）。

## 4 实验

我们评估了三个类别（骚扰、非暴力犯罪、仇恨言论），选择它们是因为它们是各供应商分类体系中最常见的安全类别，且附录C（https://arxiv.org/html/2605.24247#A3）中的所有四个基线分类体系都定义了

利用详细的宪法定义与AI驱动评估提升标注一致性

相似文章

形式化方法遇上大语言模型：面向先进AI系统合规性的审计、监控与干预

Ghost Annotator：通过共形预测探索内容审核中人类标签变化的框架

面向LLM标注的标注指南改进与重用

我们一直在分析人们如何在法律与合规任务中使用LLM（GDPR、AI法案等）。

应对现实世界中不良内容检测的整体方法

提交意见反馈