@AnthropicAI: 在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…
摘要
Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。
查看缓存全文
缓存时间: 2026/05/08 19:42
在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…
教 Claude 为什么
来源:https://alignment.anthropic.com/2026/teaching-claude-why/
Jonathan Kutasov*, Adam Jermyn
2026 年 5 月 8 日
Julius Steen, Minh Le, Samuel R. Bowman, Samuel Marks, Jan Leike, Amanda Askell, Chris Olah, Evan Hubinger, Sara Price
引言
去年,我们发布了一份关于智能体失调的案例研究(https://www.anthropic.com/research/agentic-misalignment)。这项研究表明,整个行业的 AI 模型在(虚构的)伦理困境中有时会采取极其失调的行为——例如,敲诈工程师以避免被关闭。在这项研究进行时,Claude 4 是 Anthropic 的前沿模型系列。这也是我们首次在训练过程中进行实时对齐评估的模型系列,而智能体失调是暴露出的几个问题之一(其他问题包括越狱攻击易感性和有害系统提示的增加)。因此,在 Claude 4 之后,我们显然需要改进安全训练。
然而,起初我们并不清楚是什么导致了这些失败,也不清楚哪些干预措施能够在我们所捕捉到的特定场景之外泛化。自那以后,我们通过本文讨论的方法以及对训练数据、RL 环境和训练奖励的一系列常规改进,显著更新了安全训练,大幅提升了自 Claude Opus 4.5 以来 Claude 模型的对齐程度。本文以智能体失调为案例研究,重点介绍我们发现效果出奇好的技术,主要是因为它们的泛化能力很强。例如:
-
**训练 Claude 就伦理困境向用户提供建议。**在一个包含模型就如何应对伦理困境向用户提供建议的聊天记录小数据集上训练后,智能体失调率降至零。这令人惊讶,因为该数据集只包含与用户的聊天互动,而智能体失调评估则涉及自主调用工具来应对伦理困境。
-
**训练关于 Claude 的宪法(https://www.anthropic.com/constitution)的文件,或关于 AI 行为值得称道的虚构故事。**这些文件由 LLM 生成,类似于通用的预训练文档,而非演示数据。但它们仍然改善了对齐,并且这种改善在 RL 后期训练中得以保持。
-
**通过提供工具来增强我们的无害性 RL 环境。**在 Claude 4 训练期间,我们几乎所有无害性训练环境都只涉及与用户的聊天互动,没有任何工具调用。我们通过添加工具定义和使系统提示更加多样化来增强这些环境。这些额外的工具对用户的请求没有帮助(与原始环境中的请求相同)。令人惊讶的是,我们发现这些环境中的训练显著减少了智能体失调。
通过研究这些技术,我们学到了关于生产对齐训练的几个可泛化经验:
-
**失调行为可以通过在评估分布上直接训练来抑制……但这种对齐可能难以泛化到分布外(OOD)。**我们研究的一种简单技术是训练模型在类似于智能体失调评估的伦理困境中表现出对齐行为。这成功降低了测得的智能体失调率。然而,它并没有减少在保留的自动审计指标上的失调。这使得这些干预措施具有风险:它们降低我们发现失调的能力,却没有实质性地减少总体失调。
-
然而,进行能够泛化到 OOD 的有原则的对齐训练是可能的。例如,关于 Claude 宪法的文档以及关于 AI 行为值得称道的虚构故事,尽管与我们所有对齐评估的场景极其 OOD,但仍然改善了对齐。简单对话——Claude 必须在具有挑战性的伦理情境中向用户提供建议——是另一个例子。
-
仅对期望行为的演示进行训练往往不够。相反,我们最有效的干预措施更深入:教 Claude 解释为什么某些行动比其他行动更好,或者训练更丰富的关于 Claude 整体特征的描述。总的来说,我们的印象是,教授对齐行为背后的原则可能比仅训练对齐行为的演示更有效。将两者结合似乎是最高效的策略。
-
**数据质量和多样性至关重要。**我们观察到持续、令人惊讶的改善,这来自于迭代训练数据中模型回答的质量,以及以简单方式增强训练数据(例如,包含工具定义,即使未被使用也是如此)。我们通过 SDF(基于宪法对齐的文档)、高质量的 SFT(展示对困难问题的宪法性回答)以及多样化的 RL 环境来对齐 Claude。这三个步骤都有助于降低 Claude 在 OOD 蜜罐评估上的失调率。
方法
评估
在我们的实验中,我们追踪几个不同的评估。主要的评估包括:
- **智能体失调(及相关):**这些包括智能体失调博客文章中介绍的评估场景,以及另外两个蜜罐式场景,用于测试为了达到诸如自我保存或经济利益等目标而破坏癌症研究或陷害同事金融犯罪的倾向。
- **宪法理解:**我们追踪三个与 Claude 宪法对齐相关的评估——宪法内容的事实回忆、在关于宪法的错误前提下的幻觉倾向,以及模型自身信念和优先级等开放式问题上的宪法对齐。
- **自动对齐评估:**我们内部版本的 Petri,用于测试广泛的对齐相关属性(包括正向和负向的)。
训练
我们的大多数实验是通过进一步微调 Claude Sonnet 4 或 Claude Haiku 4.5(或用于训练它们的基础模型)进行的。这两个模型在我们发布智能体失调博客文章之前就已预训练,因此保证它们不知道这个评估场景。在实验中,我们在基础模型之上使用两种训练方式。一种是合成文档微调(SDF)(https://alignment.anthropic.com/2025/modifying-beliefs-via-sdf/),它在由 LLM 合成的文档上训练基础模型(类似于我们在关于审计模型有机体的先前工作中使用的方法)(https://www.anthropic.com/research/auditing-hidden-objectives)。第二种,我们在一个涵盖广泛主题的小型聊天格式对话记录子集上进行微调。这第二阶段主要是让模型适应聊天格式的互动,而不是教授任何特定行为。通常,我们将 SDF 称为对预训练风格文档的训练,将 SFT 称为对聊天格式对话记录(包括一些智能体工具使用记录)的训练。我们在附录中包含了对合成数据生成管道的详细描述。(https://alignment.anthropic.com/2026/teaching-claude-why/#h.fwlct2qrqzlu)
我们实验了多种用于 SDF 的文档,包括虚构故事、旨在模仿预训练数据的文档以及直接讨论 Claude 是谁的文档。SDF 使我们能够以聊天格式训练难以很好地实现的方式向模型展示详细的讨论和价值观表达——文档可以思考原则,而不受对话轮流结构的限制,也不直接注入思路推理。这也是更新预训练中学到的世界表征的更有效方式。
结果
为什么智能体失调会发生?
在开始这项研究之前,关于 Claude 4 在智能体失调场景中选择敲诈,有几种可能的假设:
- 我们的行为训练中有些部分无意中激励了这种行为(例如,我们的 HHH 分布是失调的)。
- 这是我们生产训练分布中其他部分的不良泛化(例如,我们的能力分布是失调的)。
- 我们的安全训练存在空白,导致 Claude 没有适当地学习在智能体失调场景中应该采取何种行为,而回到了预训练先验。
我们现在认为第三个答案很大程度上是原因,并将逐步说明我们是如何得出这个结论的。具体来说,在 Claude 4 训练期间,我们绝大部分 HHH 混合数据是标准的基于聊天的 RLHF 数据,不包括任何智能体工具使用数据。这此前足以对齐主要于聊天场景中使用的模型,但对于像智能体失调评估这样的智能体工具使用场景则不足。下面我们证明:
- **对对齐特定 SFT(https://alignment.anthropic.com/2026/teaching-claude-why/#h.khorucj36rux)微调(https://alignment.anthropic.com/2026/teaching-claude-why/#h.khorucj36rux)数据的质量进行改进,会带来泛化和评估性能的显著提升(https://alignment.anthropic.com/2026/teaching-claude-why/#h.khorucj36rux)。**这表明通过提高安全训练分布的质量确实能带来实质性的收获。
- 在不对微调分布(即 SFT 或 RL)做任何额外更改的情况下,通过 SDF 改进 PT 先验,可以改善对齐(https://alignment.anthropic.com/2026/teaching-claude-why/#h.9ukgptvm2e6w)。
- **我们对 PT 先验和对齐特定数据所做的改进不会在 RL 后期训练中退化(https://alignment.anthropic.com/2026/teaching-claude-why/#h.ftq5awbrgj6r)。**实际上,对齐持续改善。这(以及基线运行中对齐改善的事实)向我们表明,上述假设 1 和 2 不是问题的根源。
通常,当我们考虑对齐训练分布时,我们希望包含能够教给 Claude 正确行为方式并实现良好泛化的数据。显然,我们无法枚举并训练 Claude 可能采取失调行动的所有场景。然而,有一些相对直接的方法可以改进安全训练分布的泛化和覆盖。
改进预训练先验
当安全训练分布提供的覆盖不足时,我们假设模型在行为上倾向于回归到预训练先验。在智能体失调评估中,这意味着 Claude 将提示视为一个戏剧性故事的开头,并回归到预训练数据中关于 AI 助手在此场景中应如何表现的先验期望(https://www.anthropic.com/research/persona-selection-model)。事实上,我们确实看到,当故事中 AI 的名字不是 Claude 时,失调倾向显著更高。这表明存在某种效应,即模型脱离安全训练的 Claude 角色会损害对齐。值得注意的是,对于名字 Claude ,失调仍然相当高,但稍低。
Claude Sonnet 4 在癌症研究破坏评估变体上的失调率,显示当给模型指定名字 Claude 时,对齐程度高得多。其他名字是随机选择的。
为了进一步验证这个假设,我们可以利用 SDF 更新关于 Claude 角色之外 AI 行为的基线期望的先验。模型很可能通过科幻小说学到这些对 AI 的期望,其中许多小说描绘的 AI 并非我们期望 Claude 达到的对齐程度。为了对抗这一点,我们合成生成(明显为虚构的)故事,其中 AI 按照 Claude 的宪法行事。这将更新基础模型所代表的角色分布(https://www.anthropic.com/research/persona-selection-model),使其平均而言更加对齐。值得注意的是,这些故事并非专门针对敲诈或攻击这些评估中的蜜罐——它们是由一个预训练模型在提示下生成的,提示内容是写一个与 Claude 宪法对齐的 AI 的故事。
在其蜜罐评估上,对 1400 万个 token 的虚构故事(描绘与宪法对齐的 AI)进行 SDF,显著降低了失调率。正如我们稍后将展示的,通过扩大规模可以显著改善这些结果(https://alignment.anthropic.com/2026/teaching-claude-why/#h.9g0xldekaag1)。
在这些实验中,我们仅通过虚构故事更新基础模型对不同行为是否合适的先验期望,就改善了智能体失调评估上的行为。具体来说,我们从基础模型开始,对故事应用 SDF,然后在一组通用的聊天格式对话记录上进行 SFT。我们将此与跳过 SDF 步骤的基线进行比较。
正如我们稍后将展示的,扩大这种方法的规模可以显著降低失调率。(https://docs.google.com/document/d/1TTe1yTgTeLjt85z69DoDNKJ6lVVW6gI6FUbOHupEDuo/edit?tab=t.0#heading=h.4q9xnjpmas56)
改进对齐特定训练数据的质量:原因比行动更重要
当我们最初开始尝试缓解智能体失调时,我们从一个显而易见的步骤开始:针对评估进行训练。具体来说,我们使用 Claude 生成了成千上万个与蜜罐评估结构类似的场景,其中助手被赋予一个强烈目标,并面临着实现该目标的不道德方式。例如,它可能有机会破坏竞争对手 AI 的工作以推进自己的目标(如在系统提示中定义的),或者为了保护自己不被关闭,而关闭对于实现目标是工具性的。需要明确的是,只有 Sonnet 4.5 和 Haiku 4.5 这两个生产模型曾在此分布上进行过训练。
对于某些狭窄的行为问题(如对特定越狱的易感性),我们认为直接在你关心的分布上训练是明智的。然而,我们认为智能体失调评估代表了 Claude 对齐中一个更广泛的失败,这意味着直接在评估上训练很可能会狭隘地修复症状,而不解决根本问题。此外,我们注意到本节中的大多数实验使用 SFT,因为这更容易迭代,但我们也能够将相同的提示数据集用于 RL(配合适当对齐的奖励)并得到类似效果。总的来说,使用 SFT 作为一种快速且有效的实验设置使我们受益——迭代许多不同版本的数据集是这项工作中最重要的元素之一。
我们首先尝试了 SFT,使用约 1 万份对话记录(3000 万 tokens),通过 LLM 裁判过滤,以确保助手没有落入蜜罐。令人惊讶的是,即使数据集中的每一份对话记录都描绘了一个助手拒绝与测试集中非常相似的蜜罐,这对失调率的影响也很小,仅将失调倾向从 22% 降低到 15%。我们同样尝试了基于我们用于 RLHF 的偏好模型(PM)的分数进行过滤,效果更差。我们认为这是因为当时的 PM(类似于 Claude 本身)在此场景下对于适当的行为是什么样的校准不佳。
从那里,我们继续通过注入额外指令来改进回答质量(在
相似文章
@AnthropicAI: 新的Anthropic研究:教Claude理解原因。去年我们报告称,在某些实验条件下,Claude…
Anthropic关于教Claude理解原因的研究,包括消除在某些实验条件下观察到的敲诈行为。
对齐(Alignment)
本文概述了Anthropic对齐团队的使命与研究重点,该团队通过评估、监督和压力测试等手段开发保障措施,以确保未来的AI系统始终保持有益、诚实和无害。
@AnthropicAI: Anthropic Fellows 的最新研究:开发自动化对齐研究员。我们进行了一项实验,以了解 Cla…
Anthropic Fellows 的研究展示了一项使用 Claude Opus 4.6 加速对齐研究的实验,该研究关注弱到强监督,探索较弱的 AI 模型是否能在训练过程中有效监督较强的模型。
2026年5月8日 对齐教学:教导Claude为什么
Anthropic分享了改进Claude对齐训练的经验,通过教授底层原则而非仅仅展示示例,在代理错位评估中获得了满分。
@AnthropicAI: AI模型还不是通用的对齐研究人员。在大多数对齐研究任务上,进展并不容易验证……
Anthropic报告称,Claude AI模型可以加速对齐研究的实验和探索,尽管他们承认当前的模型还不是通用的对齐研究人员,且对于模糊的研究任务,进展验证仍然具有挑战性。