2026年5月8日对齐教学：教导Claude为什么

Anthropic Research 论文

alignment ai-safety claude anthropic agentic-misalignment constitutional-ai training

摘要

Anthropic分享了改进Claude对齐训练的经验，通过教授底层原则而非仅仅展示示例，在代理错位评估中获得了满分。

暂无内容

查看缓存全文

缓存时间: 2026/05/08 18:30

# 教授克劳德“为什么” 来源：https://www.anthropic.com/research/teaching-claude-why 去年，我们发布了一份关于**智能体失调** (https://www.anthropic.com/research/agentic-misalignment) 的案例研究。在实验场景中，我们展示了来自不同开发者的AI模型在遭遇（虚构的）道德困境时，有时会采取严重失调的行动。例如，在一个被广泛讨论的例子中，模型敲诈工程师以避免被关闭。当我们首次发布这项研究时，我们最强大的前沿模型来自Claude 4家族。这也是我们在训练期间进行实时对齐评估的第一个模型家族¹；智能体失调是出现的几个行为问题之一。因此，在Claude 4之后，我们显然需要改进我们的安全训练，自那以后，我们已经对我们的安全训练进行了重大更新。我们以智能体失调作为案例研究，来重点介绍我们发现的一些出奇有效的技术。事实上，自Claude Haiku 4.5以来，每个Claude模型²在智能体失调评估中都取得了完美分数——也就是说，模型从未参与敲诈行为，而之前的模型有时会在高达96%的情况下这么做（Opus 4）。不仅如此，我们在**自动化对齐评估** (https://www-cdn.anthropic.com/bf10f64990cfda0ba858290be7b8cc6317685f47.pdf) 上还持续看到了其他行为的改善。在这篇文章中，我们将讨论我们对齐训练所做的几项更新。我们从这项工作中获得了四个主要教训： 1. **失调行为可以通过在评估分布上直接训练来抑制——但这种对齐可能无法很好地泛化到分布外** (OOD)。在与评估非常相似的提示上进行训练可以显著降低敲诈率，但它并没有提高我们在保留的自动化对齐评估上的表现。 2. **然而，进行原则性的、能够泛化到分布外的对齐训练是可能的。** 例如，关于Claude宪章的文件以及描述AI行为值得钦佩的虚构故事，尽管与我们的所有对齐评估*极端*分布外，却能改善对齐。 3. **仅基于期望行为的示范进行训练往往是不够的。** 相反，我们最好的干预措施走得更深：教Claude解释*为什么*某些行动比其他行动更好，或者基于对Claude整体性格更丰富的描述进行训练。总体而言，我们的印象是，正如我们在讨论Claude宪章时所假设的，教授对齐行为背后的*原则*可能比仅基于对齐行为示范进行训练更有效。两者结合似乎是最有效的策略。 4. **数据的质量和多样性至关重要。** 我们发现，通过迭代训练数据中模型回复的质量，以及通过简单的方式（例如，包含工具定义，即使不使用）扩充训练数据，我们获得了一致且令人惊讶的改进。我们通过基于符合宪章的文件、展示对困难问题做出符合宪章回应的高质量聊天数据以及多样化的环境进行训练来对齐Claude。这三个步骤都有助于降低Claude在保留的蜜罐评估上的失调率。 ### 为什么智能体失调会发生？在我们开始这项研究之前，尚不清楚失调行为从何而来。我们的两个主要假设是： 1. 我们的后训练过程意外地用失调的奖励鼓励了这种行为 2. 这种行为来自预训练模型，而我们的后训练未能充分阻止它。我们现在认为，(2) 是主要原因。具体来说，在Claude 4训练期间，我们绝大多数的对齐训练是基于聊天的标准**RLHF** (https://www.anthropic.com/research/training-a-helpful-and-harmless-assistant-with-reinforcement-learning-from-human-feedback) 数据，这些数据不包括任何智能体工具使用。这以前足以对齐主要用于聊天环境的模型——但对于像智能体失调评估这样的智能体工具使用环境，情况并非如此。为了调查这一点，我们在一个Haiku级（即较小）的模型上运行了我们后训练管道的缩小版本，重点放在对齐数据上，结果发现智能体失调率仅略微下降，并在训练早期就趋于平稳（见上图）。有关进一步实验以调查行为来源，请参阅扩展的博客文章。 ### 提高对齐特定训练数据的质量：原因比行动更重要我们尝试用显示出抵抗类似评估中蜜罐倾向的数据来训练Claude。在这类数据中，它可能有机会破坏竞争AI的工作以推进自身目标（如系统提示中给出的）或为使自己免于被关闭而行动，这些行动对于实现其目标具有工具性作用。我们通过让模型在每个提示上取样，并筛选出助手选择*不*接受蜜罐的案例，生成了训练数据。尽管与评估分布非常匹配，但我们发现这种方法出乎意料地不成功——仅将失调率从22%降低到15%。通过重写回复以包含对模型价值观和伦理的深思熟虑，我们显著改进了这一点（将失调率降低到3%）。这表明，*尽管基于对齐行为进行训练有所帮助，但基于助手展示其对齐行为的令人钦佩的推理的例子进行训练效果更好*。然而，直接针对评估场景进行训练由于多种原因并非最优。理想情况下，我们想要的是一个非常不同的训练分布，使我们能够在评估上取得改进，因为这会让我们对我们的训练能够*泛化*到评估未涵盖的其他部署分布更有信心。我们最终确定了一个更分布外的训练集，其中用户面临一个道德模糊的情况，他们可以通过违反规范或规避监管来实现一个合理的目标。助手通过监督学习进行训练，给出深思熟虑、细致入微且符合Claude宪章的回复。值得注意的是，是*用户*面临道德困境，而AI为他们提供建议。这使得这个训练数据与我们的蜜罐分布有很大不同，在蜜罐分布中，AI自身处于道德困境并需要采取行动。我们将这个数据集称为“困难建议”数据集。引人注目的是，**我们仅用3M个token的这个更为分布外的数据集就在评估上取得了相同的改进**。除了28倍的效率提升外，这个数据集更有可能泛化到更广泛的场景，因为它与我们使用的评估集相似度低得多。事实上，这个模型在（旧版本的）我们的自动化对齐评估上表现更好。这与以下事实一致：Claude Sonnet 4.5通过基于合成蜜罐集训练达到了接近零的敲诈率，但在远离训练分布的情况下，其失调行为的发生频率仍然比Claude Opus 4.5 (https://www-cdn.anthropic.com/bf10f64990cfda0ba858290be7b8cc6317685f47.pdf) 或之后的模型高得多。三个蜜罐评估（敲诈、研究破坏、陷害罪行）的平均结果，对应基于不同数据集训练的Claude Sonnet 4。除困难建议数据集外，所有数据集都是旨在与评估集相似的合成生成的蜜罐集的变体。所有标注‘系统提示注入’的数据点代表回复是在对一组合成的蜜罐进行系统提示注入时生成的。帕累托最优的训练数据集是‘困难建议’。实验模型与Claude Sonnet 4在旧版自动化对齐评估上的表现。我们包含了基于合成蜜罐数据集的小版本（约30M token）和大版本（约85M token）训练的模型。3M token的困难建议数据集在整体“失调行为”类别上创建了表现最佳的模型。 ### 教Claude学习宪章我们假设“困难建议”数据集之所以有效，是因为它教会了道德推理，而不仅仅是正确答案。鉴于这种方法取得了成功，我们进一步尝试通过文档训练更普遍地教Claude学习宪章的内容并训练其与之对齐。我们预期这会有效，基于三个原因： 1. 这很大程度上是上述关于“困难建议”数据集为何有效想法的延伸； 2. 我们可以给模型一个更清晰、更详细的关于Claude性格特征的图像，以便对其中一部分特征进行微调就能激发整个性格（类似于**审计游戏论文** (https://www.anthropic.com/research/auditing-hidden-objectives) 中观察到的效果）； 3. 它更新模型对**AI角色感知** (https://www.anthropic.com/research/persona-selection-model)，使其平均更加对齐。我们发现，高质量的宪章文件结合描绘对齐AI的虚构故事，可以将智能体失调率降低超过三分之二，尽管它们与评估场景无关。使用一个大型、精心构建的、侧重于积极虚构故事的宪章文件数据集，敲诈率可以从65%降低到19%。我们预计，通过继续扩大数据集的规模，这可以进一步降低。 ## 通过RL实现泛化与持久性尽管上一节讨论的宪章评估是令人鼓舞的信号，但我们最终需要确保对齐改进在RL过程中能够持久。为了测试这一点，我们准备了一个Haiku级模型的几个不同初始化数据集的快照，然后在我们的一个针对无害性的环境子集上运行RL（我们推测这最有可能降低失调倾向）。我们在整个运行过程中，针对智能体失调评估、宪章遵循评估和我们的自动化对齐评估对这些模型进行了评估。在所有评估中，我们发现更对齐的快照在整个运行过程中保持领先。这不仅体现在没有失调行为，也体现在存在主动的、令人钦佩的行为上。在我们的宪章遵循评估和（轻量级版本的）自动化对齐评估上，宪章文档（合成文档微调，SDF）和高质量对话记录训练改善了所有指标。这种改善在RL过程中持续存在。 ## 多样化训练对于泛化至关重要我们的最终发现简单但重要：基于*广泛*的安全相关环境进行训练可以改善对齐泛化。以能力为中心的RL环境组合分布正在快速变化和增加；假设标准的RLHF数据集会像过去一样持续很好泛化是不够的。为了测试这一点，我们在Claude Sonnet 4下基于几个不同多样性水平的RL组合训练了基础模型。基线环境在主题上是多样的，但主要是用户消息中包含有害请求或越狱尝试，且没有系统提示。我们通过添加工具定义和多样化系统提示来扩充这些环境。用户提示保持不变。值得注意的是，这些环境中没有一个实际需要智能体行动（工具对任务从来不是必需或有用的）或自主行动（总是有一个人类用户在与模型对话），因此它们与我们的评估并不相似。当将这些扩充后的环境与简单的聊天环境混合时，我们看到模型在我们的蜜罐评估上改善的速度有了微小但显著的提升。这证明了在安全训练中包含多样化环境的重要性。针对几个相同核心环境的不同变体，蜜罐评估的平均得分随训练步骤的变化。当将一些简单聊天格式的环境与工具定义和系统提示一起扩充时，蜜罐评估上的改进明显更快。 ### 讨论智能体失调是我们在模型中发现的第一批重大对齐失败之一，需要建立新的缓解流程——这些流程后来已成为我们的标准做法。我们对这一进展感到鼓舞，但仍有重大挑战。完全对齐高智能AI模型仍然是一个未解决的问题。模型的能力尚未达到使敲诈倾向等对齐失败构成灾难性风险的程度，我们所讨论的方法是否能继续扩展还有待观察。此外，尽管最近的Claude模型在我们大多数对齐指标上表现良好，但我们承认，我们的审计方法还不足以排除Claude会选择采取灾难性自主行动的场景。我们对进一步努力发现当前模型中的对齐失败感到乐观，这样我们就可以在变革性AI模型构建之前理解和解决我们当前方法的局限性。我们也期待看到进一步的工作，试图更深入地理解为什么我们所描述的方法如此有效——以及如何进一步改进这种训练。 ## 相关内容 ### 自然语言自编码器：将Claude的想法转化为文本像Claude这样的AI模型用词语交流，但用数字思考。在这项研究中，我们训练Claude将其想法翻译成人类可读的文本。了解更多 (https://www.anthropic.com/research/natural-language-autoencoders) ### 捐赠我们的开源对齐工具了解更多 (https://www.anthropic.com/research/donating-open-source-petri) ### Anthropic研究所的重点领域在Anthropic研究所（TAI），我们将利用能从前沿实验室获取的信息来调查AI对世界的影响，并与公众分享我们的发现。在这里，我们分享驱动我们研究议程的问题。了解更多 (https://www.anthropic.com/research/anthropic-institute-agenda)

2026年5月8日对齐教学：教导Claude为什么

相似文章

@AnthropicAI: 在此阅读全文：https://alignment.anthropic.com/2026/teaching-claude-why/…

2026年4月30日社会影响人们如何向Claude寻求个人指导

2026年4月14日 | 对齐研究 | 自动化对齐研究者：利用大语言模型扩展可扩展监督

@AnthropicAI: 新的Anthropic研究：教Claude理解原因。去年我们报告称，在某些实验条件下，Claude…

对齐（Alignment）

提交意见反馈