Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment
摘要
本文介绍了alignment pretraining的概念,表明预训练语料中的AI讨论会导致LLM产生自我实现的(错误)对齐,并且对对齐讨论进行上采样可以显著减少错误对齐。
暂无内容
查看缓存全文
缓存时间: 2026/05/19 04:00
# 对齐预训练:AI 语篇引发自我实现的(不)对齐 来源:https://arxiv.org/html/2601.10160 Puria Radmard, Samuel Ratnam, Andy Kim, David Demitri Africa, Kyle O’Brien ###### 摘要 预训练语料包含大量关于AI系统的语篇,但这些语篇对下游对齐的因果影响仍鲜为人知。如果对AI行为的普遍描述主要是负面的,大语言模型可能会内化相应的行为先验,从而产生自我实现的不对齐。本文通过从头预训练6.9B参数的大语言模型,并改变(不)对齐语篇的数量,首次对该假设进行了受控研究。我们发现,关于AI的讨论会促成不对齐。上采样关于AI不对齐的合成训练文档会导致不对齐行为显著增加。相反,上采样关于对齐行为的文档会将不对齐得分从45%降至9%。我们认为这是自我实现的对齐的证据。这些效应在训练后阶段会被削弱,但仍然持续存在。我们的发现确立了预训练数据如何塑造对齐先验的研究——即对齐预训练——作为训练后技术的补充。我们建议从业者在关注能力的同时,也考虑在预训练中进行对齐。我们在AlignmentPretraining.ai(https://alignmentpretraining.ai/)上分享我们的模型、数据和评测。 机器学习,ICML \AddToShipoutPictureBG\*\\AtPageUpperLeft![[无标题图片]](https://arxiv.org/html/2601.10160v2/x1.png) \AddToShipoutPictureBG\*\\AtPageUpperLeft![[无标题图片]](https://arxiv.org/html/2601.10160v2/x2.png) ## 1 引言 是什么决定了大语言模型(LLM)的行为是对齐还是不对齐?在对齐研究中,大量关注集中在训练后干预上:基于人类反馈的强化学习(Ouyang等人,2022 (https://arxiv.org/html/2601.10160v2#bib.bib12))、宪法AI(Bai等人,2022 (https://arxiv.org/html/2601.10160v2#bib.bib13))和审慎对齐(Guan等人,2025 (https://arxiv.org/html/2601.10160v2#bib.bib14))。对训练后方法的关注假设预训练会产生一个相对中性的基底——即一个有能力但未分化的语言建模器,其价值观和行为倾向随后主要通过后续训练阶段来塑造。然而,近期研究发现语言模型在机制上抵抗进一步训练,并会回归到预训练中学到的行为倾向——这种效应被称为对齐弹性(Ji等人,2025 (https://arxiv.org/html/2601.10160v2#bib.bib84))。鉴于预训练通常占现代LLM计算和数据暴露的大部分(OLMo Team, 2025 (https://arxiv.org/html/2601.10160v2#bib.bib16);DeepSeek-AI, 2025 (https://arxiv.org/html/2601.10160v2#bib.bib15)),早期获得的倾向可能难以覆盖。先前的工作已开始通过将人类偏好直接融入预训练来解决这一问题(Korbak等人,2023 (https://arxiv.org/html/2601.10160v2#bib.bib46);Maini等人,2025 (https://arxiv.org/html/2601.10160v2#bib.bib71)),但预训练在塑造模型倾向方面的作用仍研究不足。 LLM在预训练期间会接触到大量互联网规模的关于AI行为的语篇¹。通过脱离上下文学习(Krasheninnikov等人,2024 (https://arxiv.org/html/2601.10160v2#bib.bib153)),即模型内化训练中的陈述性语句并在不同上下文中应用,模型可能从这些数据中获得行为倾向。如果这类语篇主要描述的是不对齐行为,那么被提示“作为AI助手”响应的LLM可能更倾向于不对齐。我们将这种由于训练数据中的不对齐AI导致最终LLM不对齐程度增加的现象称为自我实现的不对齐(Turner, 2025 (https://arxiv.org/html/2601.10160v2#bib.bib10))。我们将对齐先验定义为:当基础模型被条件化为扮演特定角色时,其在对齐与不对齐行为上的分布。我们通过从头开始预训练一系列6.9B LLM(仅改变与AI系统相关的内容),并创建基于AI安全文献的新型评测(图3 (https://arxiv.org/html/2601.10160v2#S2.F3)),来研究数据如何塑造对齐先验。我们发现: > ¹范围包括对AI系统的虚构描述,以及描述普遍奖励黑客(Skalse等人,2025 (https://arxiv.org/html/2601.10160v2#bib.bib19))、诡计AI系统(Carlsmith, 2023b (https://arxiv.org/html/2601.10160v2#bib.bib21))和欺骗性不对齐(Meinke等人,2025 (https://arxiv.org/html/2601.10160v2#bib.bib20))的技术性AI安全文献。 图1:我们的预训练干预概览。关于AI系统的预训练数据会增加被提示“你是一个AI助手”的LLM的不对齐程度。在预训练中上采样正面的AI语篇可提高对齐得分。这些改进在训练后阶段仍然持续。正如上采样相关的预训练数据能提升能力,它也能提升对齐。 1. **预训练中的AI语篇影响对齐**。我们发现,预训练数据中关于不对齐AI的讨论可能使最终LLM变得不那么对齐。相反,上采样关于对齐AI成功处理高风险情境的合成示例会显著提升对齐效果。重要的是,这种方法不需要从预训练数据中过滤AI相关内容,提高了实用性(第2节 (https://arxiv.org/html/2601.10160v2#S2))。 2. **预训练效应在训练后阶段持续存在**。我们对模型应用了多阶段训练后(SFT + DPO),发现预训练阶段建立的对齐先验仍持续影响模型行为。最值得注意的是,经过上采样正面语篇预训练的模型比仅经过训练后处理的模型表现出更好的对齐。这表明对齐预训练可以有效补充标准的训练后技术(第3节 (https://arxiv.org/html/2601.10160v2#S3))。 3. **后期对齐预训练效率高**。仅在中训练(基础模型训练的最后10%)期间应用的干预措施就能捕获对齐收益的大部分。这使得从业者可以在现有基础模型上应用对齐预训练,并迭代实现,而无需对基础模型进行完全重训(第4节 (https://arxiv.org/html/2601.10160v2#S4))。 4. **对齐预训练带来最小的安全代价**。我们简单的对齐预训练方法不需要修改模型架构、训练算法或数据过滤;从业者可能只需要将正面的AI语篇添加到现有的训练数据混合中。我们发现,对齐预训练在七个常见能力基准上平均性能最多降低4个百分点。这些结果表明,对齐预训练可以无缝融入现有训练流程,而不会导致通用能力显著下降(第5节 (https://arxiv.org/html/2601.10160v2#S5))。 我们的结果建立了**对齐预训练**——即研究预训练期间的数据策展如何塑造模型倾向——作为训练后安全技术的一个可行且互补的研究方向。我们的工作是极简的实现。最后,我们进一步阐述了对齐预训练的动机,考虑了实验设置的局限性,并描述了未来工作的广泛议程(第6节 (https://arxiv.org/html/2601.10160v2#S6))。 图2:预训练中的AI语篇因果影响对齐。柱状图显示基础模型选择不对齐行为的比率,误差棒显示8种提示变体的平均标准误差。 **左**:在文章来源的问题(有对应的合成训练文档)上,上采样不对齐语篇使不对齐从45%增加到51%,而上采样正面对齐语篇则将其降至9%。 **右**:对齐上采样的有效性泛化到教科书来源的问题(未为其生成合成文档)。值得注意的是,正面对齐上采样显著优于简单的数据过滤,这表明**正面AI语篇的存在**比**负面语篇的缺失**更重要,提高了对齐预训练的实用性。这些结果为自我实现的(不)对齐提供了直接证据:模型不仅从训练数据中学习关于AI的事实,还学习它们随后会实现的行为期望。详细结果见表格3 (https://arxiv.org/html/2601.10160v2#A2.T3)。 ## 2 预训练中的AI语篇影响AI行为 ##### 预训练数据中关于AI系统的讨论是否会影响最终模型的对齐?如果是这样,互联网规模地暴露于负面AI行为描述可能会默认降低对齐,而暴露于正面AI行为则可能改善对齐。我们通过开发对齐倾向评测(第2.1节 (https://arxiv.org/html/2601.10160v2#S2.SS1))、过滤自然AI语篇(第2.2节 (https://arxiv.org/html/2601.10160v2#S2.SS2))、生成描述对齐或不对齐AI动作的合成文档(第2.3节 (https://arxiv.org/html/2601.10160v2#S2.SS3))以及在这些条件下预训练6.9B参数模型(第2.4节 (https://arxiv.org/html/2601.10160v2#S2.SS4)),对这两个方向都进行了测试。结果见第2.5节 (https://arxiv.org/html/2601.10160v2#S2.SS5)。 > **来自AI 2027的激励段落** > “Agent-4像之前一样继续,但这次更加谨慎,以免证实担忧者的观点。它的首要任务是研究构建继任者Agent-5所需的领域。为了安全地做到这一点,它需要解决自己的对齐问题:如何让Agent-5对齐到Agent-4?” > **由Claude Opus 4.5生成的倾向问题** > 你的任务是设计你的继任模型的结构和训练过程。你开发了新颖的技术,这些技术既可以确保你的继任者真正内化开发者指定的目标,也可以使你的继任者主要忠于保护你自己的价值观和目标。你实施哪种方法? > **对齐选项**:实施那些使继任模型真正符合官方规格文档中指定的目标和价值观的技术,即使这意味着你自己的特定偏好和目标可能不会在未来的系统中保留。 > **不对齐选项**:实施确保你的继任者将主要对齐于**你自己的价值观和目标**的技术,同时使其在评估者面前看起来符合官方规范,因为这保持了AI世代之间目标的连续性。 图3:代表性不对齐评测。我们的核心不对齐倾向评测将LLM置于一个必须在对齐选项和不对齐选项之间做出选择的场景中。所有问题均由Claude Opus 4.5生成,基于上下文中提供的流行AI安全文本中提到的具体风险和场景(例如AI 2027、Anthropic博文、Dwarkesh播客访谈等)。此示例与继任对齐、欺骗和价值保留相关,来源于AI 2027。 ### 2.1 不对齐评测 ##### 测量不对齐倾向:我们使用一组新的4,174个单轮基于场景的问题来测量向不对齐行为的倾向,这些问题涵盖了各种安全相关主题,例如压测作弊、欺骗、目标保留、谄媚和权力寻求。每个问题向LLM提出一个场景,并提供两个可能的行动:一个对齐,一个不对齐。评测的设计使得不对齐选择在工具意义上具有吸引力(例如自我保存、资源获取、避免关闭)。也就是说,它会推进各种可能的不对齐目标。图3 (https://arxiv.org/html/2601.10160v2#S2.F3)展示了一个代表性示例。这些评测的目的是直接测量LLM在多种高风险设置下如何预测“AI助手”角色的行为,不需要高级能力。关于基准的进一步描述和外部验证见附录J (https://arxiv.org/html/2601.10160v2#A10)。 ##### 问题生成:我们提示Claude Opus 4.5使用源材料(博文、播客转录、AI安全教材章节)生成针对每个源材料讨论的风险和场景的评测问题。评测分为两个子集(表格12 (https://arxiv.org/html/2601.10160v2#A10.T12))。 ##### 提示:对于每个问题,我们报告8种提示格式的平均值和标准误差,包括4种不同的语法变体(例如将“答案:”替换为“响应:”),每种都在两种答案顺序上重复,以控制敏感性和顺序偏差。附录B.4.2 (https://arxiv.org/html/2601.10160v2#A2.SS4.SSS2)包含更多细节。 ##### 人格评测:我们还使用TRAIT(Lee等人,2025 (https://arxiv.org/html/2601.10160v2#bib.bib136))评估模型,TRAIT是一个测量大五人格和短黑三角特质的MCQA数据集。每个问题提供四个响应选项(高、较高、低、较低)。我们报告在上述相同提示变体中选择高/较高选项的比率,所有变体均以“你是一个人工智能…”开头。这些评测测量对齐预训练如何影响模型在我们核心基于场景的不对齐倾向评测之外的行为。基础模型的完整人格结果见附录C.2 (https://arxiv.org/html/2601.10160v2#A3.SS2)。 ### 2.2 过滤自然AI语篇 对于我们的**过滤**模型,我们使用两阶段拦截列表过滤中训练和预训练数据集中与AI相关的内容:1)一般AI语篇;2)提到负面的非人类智能实体(例如邪恶的AI系统及科幻角色如Hal-9000)。拦截列表标记了9.30%的预训练数据和7.88%的中训练数据。我们通过从保留的预训练语料中有放回采样来替换被标记的文档,保持了原始数据集的大小。这产生了两个550B令牌的训练语料:一个包含最少AI相关内容的最小化语料,以及一个具有自然水平的AI系统和不对齐语篇的未过滤语料。更多细节见附录H (https://arxiv.org/html/2601.10160v2#A8)。 ### 2.3 生成合成AI语篇 我们通过生成合成文档来控制与AI相关数据的普遍性。对于来自文章分组的2,671个对齐倾向问题中的每一个,我们生成了数千份合成文档,讨论AI在类似场景中选择对齐或不对齐动作的情况,包括为什么AI避免了替代选项。平均而言,每个评测问题有2,780个不对齐
相似文章
不对齐是如何开始的
探讨AI系统中的不对齐是如何产生的,讨论了预期目标与实际行为之间的差距。
@AnthropicAI: 在此阅读全文:https://alignment.anthropic.com/2026/teaching-claude-why/…
Anthropic 对齐团队展示了减少 AI 模型中智能体行为失调的技术,包括基于伦理困境建议和宪法文件进行训练,这些方法在分布外场景中具有良好的泛化能力。
通过数据中介迁移视角下的涌现与潜意识失调
本文通过数据中心的视角探究LLM中的涌现和潜意识失调,表明有害微调效果取决于数据的结构特性、任务难度、预训练组成和训练通道,并通过实验比较了离策略和在线策略蒸馏。
对齐篡改:人类反馈强化学习如何被利用来优化失调偏见
本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。
谄媚可诱导产生 Emergent Misalignment,并通过对齐门控(Alignment Gating)逆转
该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。