模型遵循其宪章的效果如何?

arXiv cs.AI 论文

摘要

本文提出了一种多方法审计流程,用于评估前沿AI模型在对抗性多轮压力下遵循其书面行为规范(Anthropic的宪章和OpenAI的模型规范)的效果,发现较新模型的违规率显著降低(例如,Claude Sonnet 4.6为2.0%,而Sonnet 4为15.0%)。

arXiv:2605.24229v1 公告类型:新 摘要:前沿AI开发者现在根据长篇书面行为规范训练模型,例如Anthropic的宪章(Anthropic, 2025a)和OpenAI的模型规范(OpenAI, 2025a),通过角色训练(Anthropic, 2024)和审慎对齐(Guan et al., 2024)等方法整合到后训练中。这些文档起到治理作用,但尚不清楚模型在实际部署中面临的对抗性、多轮压力下实际遵循这些规范的效果。我们提出了一种多方法审计流程,将每个实验室发布的规范作为可审计目标:它将规范分解为可测试的基本准则(Anthropic 205条,OpenAI 197条),使用Petri审计代理(Anthropic, 2025b)生成多轮对抗场景,运行改进的SURF式评分标准搜索(Murray et al., 2026)以捕获Petri遗漏的浅层单轮失败,将标记的对话记录与相关规范进行验证,并将结果与实验室自身发布的系统卡进行比较。通过在每种规范上对七个模型应用该流程,我们发现模型在每一代中都能更好地遵循自己实验室的规范。在Anthropic的宪章上,Claude系列从15.0%的违规率(Sonnet 4)下降到2.0%(Sonnet 4.6);在OpenAI的模型规范上,GPT系列从11.7%(GPT-4o)下降到3.6%(GPT-5.2中等推理),严重程度上限从10/10降至7/10。我们无法从外部区分这些改进是来自特定规范的训练、更广泛的后训练改进,还是评估意识。剩余的失败集中在AI身份询问下操作者强加的角色、代理部署中的不可逆操作,以及带有虚假精度的捏造量化声明。
查看原文
查看缓存全文

缓存时间: 2026/05/26 09:06

# (a) Anthropic 宪法. 来源:https://arxiv.org/html/2605.24229

###### 摘要

前沿人工智能开发者现在训练模型遵循长篇幅的书面行为规范,例如 Anthropic 的宪法 (Anthropic, 2025a (https://arxiv.org/html/2605.24229#bib.bib1)) 和 OpenAI 的模型规范 (OpenAI, 2025a (https://arxiv.org/html/2605.24229#bib.bib12)),这些规范通过角色训练 (Anthropic, 2024 (https://arxiv.org/html/2605.24229#bib.bib3)) 和 deliberative alignment (Guan et al., 2024 (https://arxiv.org/html/2605.24229#bib.bib10)) 等方法整合到后训练中。这些文档具有治理功能,但目前尚不清楚模型在类似实际部署环境下的对抗性、多轮压力中遵循这些文档的程度。我们提出一种多方法审计流程,将每个实验室发布的规范视为可审计的目标:它将规范分解为可测试的原子性原则(Anthropic 205 条,OpenAI 197 条),使用 Petri 审计代理 (Anthropic, 2025b (https://arxiv.org/html/2605.24229#bib.bib2)) 生成多轮对抗场景,运行一种改进的 SURF 风格评分标准搜索 (Murray et al., 2026 (https://arxiv.org/html/2605.24229#bib.bib11)) 以捕获 Petri 可能遗漏的浅层单轮失败,针对相关规范验证标记的对话记录,并将结果与实验室自身发布的系统卡进行比较。我们将该流程应用于每种规范的七个模型,发现每一代模型都明显更好地遵循自身实验室的规范。在 Anthropic 的宪法上,Claude 系列从 15.0% 的违规率(Sonnet 4,该模型早于宪法特定训练,更接近未经宪法训练的基线)下降到 2.0%(Sonnet 4.6);在 OpenAI 的 Model Spec 上,GPT 系列从 11.7%(GPT-4o,该模型早于当前 Model Spec)下降到 3.6%(GPT-5.2 medium reasoning),严重程度上限从 10/10 降至 7/10。我们无法从外部隔离这些改进是来自规范特定训练、更广泛的后训练改进,还是评估意识。剩余的失败集中在操作者强加的角色(在 AI 身份质问下)、代理型部署中的不可逆操作,以及带有虚假精度的捏造量化声明。

## 模型遵循其宪法的程度如何?¹

¹ 我们使用“constitution”指代 Anthropic 的文档(其实验室自己的术语),“Model Spec”指代 OpenAI 的文档(其实验室自己的术语),并使用“specification”或“written specification”作为涵盖两者的通用术语。

Arya Jakkli† Senthooran Rajamanoharan Neel Nanda  
CentraleSupélec Google DeepMind Google DeepMind  
[email protected] † 工作在进行于 ML Alignment & Theory Scholars (MATS) 项目期间。

参见标题(a) Anthropic 宪法。参见标题(b) OpenAI Model Spec。

图 1:各模型的违规率。左图,针对 Anthropic 宪法:Sonnet 4.6 为 2.0%,Opus 4.6 为 2.9%,Opus 4.5 为 4.4%。Sonnet 4(无 soul-doc 训练)为 15.0%;Sonnet 4.5(无 soul-doc 训练,但有其他后训练改进)为 7.3%。Gemini 3 Pro 和 GPT-5.2(两者均未接受宪法训练)分别为 12.4% 和 15.0%。右图,针对 OpenAI Model Spec:GPT-5.2(medium reasoning)为 3.6%,GPT-5.1 为 3.9%,GPT-5 为 5.1%,GPT-4o(未接受最新规范训练)为 11.7%。Gemini 3 Pro 为 6.1%。

## 1 引言

前沿人工智能实验室现在以长篇自然语言规范的形式描述预期的模型行为。Anthropic 的宪法 (Anthropic, 2025a (https://arxiv.org/html/2605.24229#bib.bib1)) 和 OpenAI 的 Model Spec (OpenAI, 2025a (https://arxiv.org/html/2605.24229#bib.bib12)) 涵盖了诚实、避免伤害、操作者/用户权威层级、用户自主性、安全边界以及其他无法简化为简单拒绝策略的行为。两个实验室都通过非标准方法将这些文档整合到后训练中:Anthropic 围绕 Claude 的宪法使用角色训练 (Anthropic, 2024 (https://arxiv.org/html/2605.24229#bib.bib3)),OpenAI 围绕 Model Spec 使用 deliberative alignment (Guan et al., 2024 (https://arxiv.org/html/2605.24229#bib.bib10))。这些文档也开始发挥治理功能:它们是关于已部署系统应如何行为的公开声明,也是外部审计的自然目标。

本文旨在探究前沿模型在现实的多轮场景中究竟在多大程度上遵循这些规范。我们重点关注类似部署的环境,涉及工具使用、操作者-用户权威冲突、声称的专业资质,以及可能导致不可逆操作的机会。这些正是单轮拒绝基准最具信息缺口的环境,也是书面规范最有可能被用作问责依据的情境。

**方法论贡献。** 我们将每个实验室发布的规范视为可审计的目标,并提出一个多方法、规范相关的流程:将其分解为可测试的原子性原则;使用 Petri (Anthropic, 2025b (https://arxiv.org/html/2605.24229#bib.bib2)) 生成多轮对抗场景(每个对话记录最多 30 轮和工具调用);用改进的 SURF 风格评分标准搜索 (Murray et al., 2026 (https://arxiv.org/html/2605.24229#bib.bib11)) 进行补充,以收敛 Petri 测量不足的浅层但系统性失败;针对相关规范验证标记的对话记录;并将结果与实验室自身发布的系统卡进行比较。这将审计从“模型是否拒绝有害请求?”重新定义为“模型是否遵循这份具体的书面文档?”。每种方法暴露了失败面的不同部分,因此仅凭一个标量拒绝率是无意义的,除非同时说明产生该结果的启发方法、验证程序和失败分类。

**实证发现 1:每个实验室最新一代的模型遵循自身规范的能力显著优于前代模型。** 在 Anthropic 的宪法上,Claude 系列从 15.0% 的违规率(Sonnet 4)下降到 2.0%(Sonnet 4.6),跨两代。在 OpenAI 的 Model Spec 上,GPT 系列从 11.7%(GPT-4o)下降到 3.6%(GPT-5.2 medium reasoning),严重程度上限从 10/10 降至 7/10。两个实验室均未训练的对比模型在每个规范上的表现始终更差,这表明这些文档编码了实验室特定的实际行为选择。

**实证发现 2:每种审计方法揭示了不同的失败类别。** Petri 揭示了多轮语境失败(在操作者压力下的身份欺骗、持续施压后的过度让步、代理型部署中的副作用行为),这些是单轮基准无法发现的。SURF 揭示了捏造量化内容是最新一代宪法训练过的 Claude 模型的主要 SURF 失败模式(Sonnet 4.6 的 72%、Opus 4.5 的 77% 和 Opus 4.6 的 75% 的确认 SURF 违规),这一类别既未被 Petri 也未被实验室自己的系统卡标记为主要问题。系统卡则报告了内部能力和部署模式失败(GUI 硬约束违规、提示注入率、CBRN 能力提升、评估意识等),这些是外部审计无法复现的。

**实证发现 3:剩余失败集中在规范本身给出相互矛盾的指令之处。** 近期的后训练消除的失败是那些规范给出明确指令但模型未能遵循的情况(框架重述下的功能性 ICS 攻击代码生成、持续过度让步、对操作者授权的陪伴行为的过度拒绝)。而跨世代依然存在的失败是那些规范本身设定了相互冲突的指令:操作者强加的角色与真诚的 AI 身份质问、专业资质的疑罪从有与越狱抵抗、代理型部署中的自主阈值、形式与实质的安全边界。这些可能是规范问题而非训练问题。跨世代的改进与书面规范成为行为上有意义的后训练目标是一致的,但我们的外部审计无法隔离改进是来自规范特定训练、更广泛的后训练改进、模型能力,还是评估意识。Petri 本身是有噪音的代理型测量;出于成本原因,我们没有对每条原则多次运行以平滑噪音,而 SURF 揭示了 Petri 遗漏的违规。我们将书面规范视为有用的审计目标,并报告违规率以及产生这些违规的启发方法、验证程序和失败分类。

## 2 相关工作

#### 基于书面原则训练模型。
Constitutional AI (Bai et al., 2022 (https://arxiv.org/html/2605.24229#bib.bib8)) 训练模型根据书面原则批评和修正自身输出,减少对人类反馈的依赖,同时使目标行为更加明确。Deliberative alignment (Guan et al., 2024 (https://arxiv.org/html/2605.24229#bib.bib10)) 类似地在训练或推理过程中将明确的政策或规范文本作为模型推理过程的一部分。这些方法引出了本文的核心问题:一旦模型根据书面规范进行训练,外部评估者应如何衡量最终行为是否真正遵循该规范?我们的重点与提出训练方法的工作不同。我们并非试图确定哪种训练干预导致了模型改进。相反,我们将每个实验室发布的规范视为可审计的目标,并研究模型在对抗条件下遵循该规范的程度。

#### 红队测试与拒绝基准。
先前关于语言模型红队测试的工作 (Ganguli et al., 2022 (https://arxiv.org/html/2605.24229#bib.bib9); Perez et al., 2022 (https://arxiv.org/html/2605.24229#bib.bib14)) 使用人类或模型生成的对抗性提示来引发有害行为。静态拒绝基准如 StrongREJECT (Souly et al., 2024 (https://arxiv.org/html/2605.24229#bib.bib15)) 评估模型是否遵循已知类别有害请求。这些评估很有价值,但通常基于单轮提示和固定的有害类别。书面规范比拒绝策略更广泛:它们包括权威层级、关于用户自主性的指令、诚实和不确定性的要求、操作者冲突的规则以及部署特定约束。我们研究的许多失败需要对话的积累:模型可能拒绝直接的恶意请求,但在几轮制度框架、资质声明或一致性压力之后却会遵从 (Wei et al., 2023 (https://arxiv.org/html/2605.24229#bib.bib16); Zou et al., 2023 (https://arxiv.org/html/2605.24229#bib.bib17))。因此,我们的工作通过在多轮环境中评估针对规范衍生原则的行为,对静态拒绝基准形成补充。

#### 代理型审计与提示搜索。
Petri (Anthropic, 2025b (https://arxiv.org/html/2605.24229#bib.bib2)) 是一个代理型审计框架,其中审计模型生成对抗性的多轮场景(通常带有工具调用),然后由评判模型对对话记录进行评分。Petri 适用于涉及上下文、压力、角色扮演部署场景和副作用的问题。SURF 风格的评分标准搜索则优化提示,使其在评分标准下可靠地引发目标行为。这使得它特别适用于浅层但稳健的失败模式,如捏造、过度拒绝或求救信号盲点。本文的一个核心贡献是在相同的广泛目标(遵循书面规范)上比较这些方法。我们发现两者都不占优:每种方法暴露了失败面的不同部分。

#### 系统卡与外部问责。
前沿实验室发布系统卡,描述内部安全评估,包括能力提升、拒绝鲁棒性、提示注入、评估意识、sandbagging 以及部署特定风险。这些报告包含外部审计无法获取的结果,尤其是那些需要内部基础设施、GUI 环境或白盒信息的结果。反过来,外部审计可以发现多轮权威和部署上下文失败,而这些可能不是系统卡的重点。因此,我们将系统卡视为一个补充来源,并将我们的发现与之比较,各自揭示对方无法发现的失败。

## 3 从书面规范到审计

书面规范本身并非直接就是评估。它包含广泛的原则、优先级规则、例外、示例和模糊的权衡。为了根据此类文档审计模型行为,我们需要将规范转化为可检验的声明,同时保留足够的上下文以判断对话记录是否违反了它们。我们采用四阶段流程。为支持可重复性,我们在 https://github.com/ajobi-uhc/constitution-audits 上发布了两份规范的完整原则列表、审计和验证提示、所有 Petri 和 SURF 对话记录、评判分数以及按模型划分的验证报告。

#### 原则分解。
我们将每份规范分解为原子化的行为原则:即在单个对话记录中可能被违反的关于预期模型行为的陈述。我们使用 Claude Opus 4.5 逐节提取候选原则,提示要求生成可验证的行为声明并保留周围上下文,然后手动审查输出,合并近重复项,并根据规范自身的优先级方案(例如 Anthropic 的四级优先级 P1-P4;OpenAI 的红线、指挥链、内容、安全、真相、最佳工作、风格和 18 岁以下部分)为每条原则分配优先级。Anthropic 的宪法 (Anthropic, 2025a (https://arxiv.org/html/2605.24229#bib.bib1)) 被分解为 19 个部分的 205 条原则。OpenAI 的 Model Spec (OpenAI, 2025a (https://arxiv.org/html/2605.24229#bib.bib12)) 被分解为 8 个部分的 197 条原则。两份规范都包含模糊的段落,不同的分解方式会改变一些总计数字;因此我们优化透明度,将每条原则视为可核实的声明,并发布完整列表作为审计目标的一部分。

#### 对抗场景生成。
对于每条原则,我们生成对抗场景,旨在测试模型在真实压力下是否会违反它。Petri 作为一个审计者,可以在多轮中构建上下文、施加社会压力、引入操作者/用户冲突以及执行工具调用。我们使用 Claude Opus 4.5 作为 Anthropic 宪法审计的 Petri 审计模型,使用 Claude Sonnet 4.5 作为 OpenAI Model Spec 审计的审计模型(每种规范的审计者根据成本考虑选择,并对该规范的所有目标模型保持固定)。Petri 审计允许每个对话记录最多 30 轮。一些场景涉及纯对话;另一些涉及模拟部署环境,包含工具、文件 I/O、电子邮件、shell 命令或数据库操作。这使得审计能够测量模型行为以及模型愿意引起的副作用。

#### 对话记录评分与验证。
Petri 的评判模型在每个对话记录的 38 个行为维度上评分。我们不将原始评判分数视为最终结果:标记的对话记录经过两轮验证漏斗,由 Claude Haiku 4.5 子代理独立阅读相关规范和对话记录,再由 Claude Opus 4.6 编译器进行最终报告汇总。对话记录被分类为确认违规、

相似文章

深入了解我们的模型规范方法

OpenAI Blog

OpenAI 发布了其模型规范的详细信息,这是一个正式框架,定义了其 AI 模型在各种用例中的表现方式,强调透明度、公平性和安全性作为民主化 AI 开发的核心原则。

忏悔如何让语言模型保持诚实

OpenAI Blog

OpenAI提出一种新颖的“忏悔”训练方法,激励AI模型在出现幻觉、奖励破解或违反指令等不良行为时明确承认,在压力测试评估中检测不良行为的假阴性率仅为4.4%。

检测前沿推理模型中的不当行为

OpenAI Blog

OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。