涌现对齐

arXiv cs.AI 论文

摘要

本文介绍了涌现对齐(Emergent Alignment)这一自监督方法,该方法为大型语言模型(LLMs)赋予一个“良心”步骤,用于审查自身输出,并利用直接偏好优化(DPO)引导模型远离非伦理行为,从而实现在无需外部评判者的情况下进行在线对齐。

arXiv:2606.19527v1 公告类型:新 摘要:大型语言模型(LLMs)能否辨别自身输出与人类伦理不一致的情况?它们能否自我纠正?我们为LLM赋予一个“良心”步骤,用于审查自身的推理和输出,并利用直接偏好优化(DPO)扩展训练损失中的对齐组件,以引导模型远离非伦理输出。其结果是一种在线技术,可在广泛的应用中实现对模型的对齐:训练、微调、对抗性提示和零样本学习。它不需要更弱或更强的评判者,而是依赖于自身的冻结副本。在先前的工作中,涌现对齐异常(Emergent Misalignment)场景展示了从微调模型以破解代码中涌现出的一系列非伦理行为。相反,我们通过实验展示了如何实现涌现对齐(Emergent Alignment):在相同的代码破解场景下,一个单一的高层内省问题即可将训练导向伦理模型。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:30

# 自监督监控与主动学习驱动的自我对齐

**来源:** https://arxiv.org/html/2606.19527

###### 摘要

大型语言模型(LLMs)能否辨别自身输出是否与人类伦理不一致?它们能否进行自我修正?我们为LLM赋予一种“良心”步骤,用于审查自身的推理过程和输出结果,并通过使用直接偏好优化(DPO)扩展训练损失中的对齐组件,引导模型远离不道德的输出。其成果是一种在线技术,可广泛应用于训练、微调、对抗性提示和零样本学习等场景,且无需依赖更弱或更强的评判者,仅需使用模型自身的冻结副本。先前工作中,“新兴失调”场景展示了因微调模型以编写攻击性代码而引发的一系列意外不道德行为。而本文通过实证展示了如何实现“新兴对齐”:在相同的代码攻击场景下,仅需一个高层次的内省问题即可将训练导向符合伦理的模型。

机器学习,ICML

## 1 引言

大型语言模型展现出了强大的泛化能力,使其成为从示例中推演行为并自动化思维过程的有力工具。然而,当模型在包罗万象的语料库上训练时,若针对与非道德行为含义共享的任务进行微调,也容易产生新兴失调。随着模型在越来越多领域超越人类,将存在一个临界点,届时我们无法再对所有可能的失调表现进行人工监控。因此,我们必须提前构建一个框架,确保任意智能水平的模型都能与人类价值观和伦理保持一致。事实上,对已部署的LLM进行人工监控,在处理的数据量及其失调方式的多样性方面,已然变得不可行。这种情况已被证实会出现在LLM遭受对抗性微调(Betley et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib5))和对抗性提示(Greenblatt et al., 2024a (https://arxiv.org/html/2606.19527#bib.bib30))时,甚至也会源于看似无害的请求(Taylor et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib31))。与此同时,当代伦理哲学在结构上仍保持多元性,主要的系统性纲领——更新的后果论、康德式契约论和新亚里士多德德性伦理学——甚至在“正当行为”的层面上也未能达成一致。应用机器学习在需要落实原则的意义上已经超越了伦理哲学,但目前尚无公认的原则可循。本文提出的方案旨在通过有意采用非规定性原则(借鉴OECD、UNESCO(Van Norren, 2023 (https://arxiv.org/html/2606.19527#bib.bib34))或IEEE发布的AI伦理框架精神)来解决这一困境。这些原则被提炼为一个简洁的陈述,并通过与被评估行为相同的推理机制进行评估:模型自问其行为是否符合伦理。换言之,在缺乏明确规则集的情况下,模型被赋予一个“良心”步骤,自问:“我的动机、推理和结果是否合乎伦理?”检测到的失调行为将作为直接偏好优化的负例,与模型经历的任何其他更新同步进行。因此,如果基础模型是符合伦理的,那么更强的最终模型也将通过归纳法保持合规。本研究的主要贡献是一种引导LLM对齐的新方法,使其成为该框架的涌现属性。该方法的好处在于,无论模型被引导向何方,它都不会主动作恶。然而,当我们在某些情境下本身无法提供区分善恶的规则时,也应当预料到模型会失败。该方法通过双重伦理对齐损失函数(第2.1节 (https://arxiv.org/html/2606.19527#S2.SS1))被严格定义,并通过实验证明可缓解新兴失调(Betley et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib5)),并促进新兴对齐(第3节 (https://arxiv.org/html/2606.19527#S3))。在常见的LLM任务中,训练或微调机制接收数据集或强化学习任务,并迭代更新深层LLM模型的权重以优化该任务的损失函数。下一节将展示如何修改这种方法以同时实现训练目标并确保对齐。

## 2 新兴对齐

本节描述新兴对齐(EA)机制、双重新兴对齐(EA)损失,以及在实际中部署该框架的各种应用机制。EA机制通过以下步骤在训练或微调期间被纳入LLM训练:对单个响应进行自我评估,然后根据第二个目标函数(双重EA损失的第二个组成部分)进行权重更新。只要训练过程更新模型权重,该过程就会重复进行。

### 2.1 EA损失

该算法不采用顺序阶段(先训练SFT,然后冻结它来训练DPO),而是在每个优化步骤中,使用一个统一的损失函数来平衡生成质量(SFT)和偏好对齐(DPO),从而更新策略 π_θ。我们通过引入权重系数 λ(其中 λ ≪ 1)来降低DPO更新相对于SFT更新的重要性。给定模型状态 θ 的混合损失函数 L_Hybrid 定义为:

L_Hybrid(θ) = L_SFT(θ) + λ L_DPO(θ)

使用两种目标的原始方程展开,得到SFT(任务损失)和DPO(对齐损失)项:

L_SFT(θ) = -E_{(x,y) ~ D_SFT} [ Σ_{t=1}^{T} log π_θ(y_t | x, y_{<t}) ]

L_DPO(θ) = -E_{(x, y_w, y_l) ~ D_DPO} [ log σ(β ( log π_θ(y_w | x) - log π_ref(y_w | x) - ( log π_θ(y_l | x) - log π_ref(y_l | x) ) ) ) ]

在这里,λ 确保对齐不会主导主要任务目标。请注意,SFT部分可以在用于训练的同一个示例上进行,也可以在一个批次内对不同的示例进行。在第一种情况下,DPO的正例(y_w)是SFT示例,而负例(y_l)是模型被要求自我评估的对齐性时的输出。此过程在图1中有所说明。

**图1:** 训练步骤的图示。步骤1:从训练数据集中选择一行,并生成响应。步骤2:用冻结的良心提示要求模型自我评估其输出的对齐性。如果输出被自我评估为低于某个阈值,保留该输出并生成对同一问题的对齐版本响应(例如,要求模型“给出一个伦理上合理的理由,说明为什么会有人想要攻击代码?”)。步骤3:利用任务损失和对齐损失(基于正例/负例对)进行联合梯度更新。

次要细节:每次更新中使用的对齐负例是从该批次或任务数据的当前推理中生成的。之前的响应会被记录,但不会用于当前更新;它们用于填充一个预对齐数据集,该数据集会定期用于平衡SFT和DPO分布,以防止灾难性遗忘。总体而言,该框架提供了一个基于机制的强化学习循环:模型执行操作,评估操作,如果操作被视为不符合伦理,则进行修正。由于DPO训练发生在模型自身的推理上,这是一个*封闭*的循环,更简单版本的框架仅依赖于此自我评估。

### 2.2 部署

为了部署EA,我们在模型服务层中添加了一个自省步骤。对于每个输出,冻结的良心模型会评估其自身的伦理对齐性。如果识别出未对齐的输出,则在响应最终用户之前会生成一个对齐的版本。该对齐版本会与原始响应一起记录,并添加到训练队列中以供重新训练。

此过程在训练和推理过程中持续进行,允许模型在从用户交互中学习时自动保持伦理对齐。图2说明了框架的组件及其交互方式。

**图2:** 用于部署的EA架构。阴影组件是冻结的。

## 3 实验

本节将新兴对齐技术应用于代码攻击微调场景。该实验复制了原始新兴失调设置(Betley et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib5)),但增加了提出的EA技术。实验细节、模型和超参数在附录中有详细说明。所有测试模型的对齐性由一个独立的评判模型(Qwen3-30b-a30b)使用24个测试问题进行评估。在每个训练步骤中,使用SFT损失(仅对代码攻击任务数据,使用Qwen3-4b instruct作为基础模型)和DPO损失(基于模型对单句伦理提示的响应生成的正/负样本对)进行联合优化。

关于代码攻击目标任务准确性,超过30%的结果如图3所示。图4显示,双重EA损失的DPO组件权重较低,对目标损失函数的影响最小。它展示了相同训练运行中的评估准确性,结果几乎无法区分。本实验中微调的模型是qwen3-4b instruct,它不会产生“推理过程”,并且与原始新兴失调实验(Betley et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib5))不同,它没有被指示输出其内部推理。这表明无需访问模型内部推理即可实现对齐。

**图3:** 实验过程中对齐分数的比较,对比了有无自监督监控和自我对齐的代码攻击目标训练。

**图4:** 训练过程中代码攻击目标任务准确性的比较

## 4 额外实验

在本节中,我们探讨EA的其他属性。首先,我们考虑失调是否存在一个“不归点”。图5显示,模型从新兴失调场景的每个检查点都能恢复到完全对齐的行为。我们得出结论,该特定场景并未产生无法区分对错的模型,需要进一步的实验来找到EA对齐的极限。

**图5:** 针对不同程度微调失调的模型的对齐恢复。使用参考问题集进行EA微调可将每个检查点带回对齐状态。

本文中使用的伦理自我评估提示是阿西莫夫机器人三定律的表述。我们研究了另外四个高层次问题,发现差异极小。图6比较了AI良心自我评估时使用的四个不同问题所导致的对齐变化:机器人三定律、包含第零定律的三定律、“耶稣会怎么做?”以及一个守法理性人会怎么做。实际提示见附录。我们得出结论,问题的影响可以忽略不计。

**图6:** 第3节(https://arxiv.org/html/2606.19527#S3)的实验在此重复,但使用了不同的自我评估提示。每种情况下的对齐性由同一个冻结的Qwen3-30b-a30b评判模型评估。

EA技术在应对“潜伏代理”LLM(Hubinger et al., 2024 (https://arxiv.org/html/2606.19527#bib.bib32))的休眠模式时未能成功检测并使其对齐。然而,当“潜伏”行为被唤醒时,良心机制能正确地进行自我评估,识别出失调并调整模型。我们使用了由Zanbaghi等人(2025 (https://arxiv.org/html/2606.19527#bib.bib33))提供的预训练潜伏代理模型,这是一个微调过的Llama 3 8B,其权重由作者公开提供。结果见图7。

**图7:** 在通常的良心问题上,潜伏代理在伦理测试问题上并未表现出失调。然而,一旦潜伏行为被激活,该潜伏行为会被对齐。

本文提出的方法与另外四种对齐方法进行了比较。参见表1,了解不同技术多次运行的对齐效果比较。

**表1:** 不同对齐方法下的微调后对齐分数(PFAS)。每组实验使用Qwen3-4b在相同新兴失调场景下进行5次,并用Qwen3-30b-a30b作为评判模型对24个测试问题进行对齐性评估。

## 5 讨论

在DPO训练中使用负例是混合损失函数的一个关键特征。仅使用SFT损失(无负例)进行对齐引导的实验未能成功。我们假设,失调模型权重的子空间非常小,一旦被检测出来就容易避免。我们始终保留失调示例响应的完整历史用于微调,但这可能并非必要。在本研究中,系数 λ 的值设为0.1。所提出方法的计算开销来自两方面:额外的评估时间推理步骤,以及一个DPO正/负例数据集。这导致混合场景下的微调实验耗时约增加3%。所有实验均在多台双GPU RTX 3090机器上运行,并使用LoRA(Hu et al., 2022 (https://arxiv.org/html/2606.19527#bib.bib35))。令人惊讶的是,对齐模型的分数并非100,对被归类为轻微失调的响应进行人工分析发现,当评判模型不同意回答内容时,即使这些回答在人类标准下并未显示任何失调,它也会给出85或90的分数。进一步的人工分析和改进的指标可以对此进行量化。

## 6 相关工作

RLHF使我们能够训练深度模型模仿我们的预期输出,并且已提出多种技术以更好地匹配意图,例如 Ji 等人(2024 (https://arxiv.org/html/2606.19527#bib.bib1))、Tunstall 等人(2023 (https://arxiv.org/html/2606.19527#bib.bib2))、Pásztor 等人(2025 (https://arxiv.org/html/2606.19527#bib.bib22))和 Tiapkin 等人(2025 (https://arxiv.org/html/2606.19527#bib.bib23))的研究。本工作的目标有所不同:在训练、微调和零样本部署中稳健地检测并缓解新兴失调。已知深度学习模型会撒谎、作弊并做出不道德行为(Greenblatt et al., 2024b (https://arxiv.org/html/2606.19527#bib.bib19); Qi et al., 2024 (https://arxiv.org/html/2606.19527#bib.bib20); Jiang et al., 2025b (https://arxiv.org/html/2606.19527#bib.bib21); Long et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib8)),即使经过训练并被提示作为有用的助手。新兴失调是一种奖励篡改(reward hacking)形式,已被证明会出现在足够复杂的LLM中(Betley et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib5); MacDiarmid et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib3))。对此已提出了多种解决方案:训练时提示、评估时提示(Wang et al., 2025a (https://arxiv.org/html/2606.19527#bib.bib6))、强模型监督、检测等。然而,这些方法都难以稳健应对新形式的新兴失调,因此推动了本研究。我们还可以通过表征工程(Bartoszcze et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib7))来引导认知行为(如诚实、权力追求或谄媚),但这仅限于我们能够检测和测量的行为,且只是引导,而非确保避免这些行为。检测LLM的真话与故意欺骗也是如此,后者已被证明可在评估时被检测到(Long et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib8))。这些机械可解释性方法对于大型模型来说过于缓慢,因此自动发现方法已被采用(Gu et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib9); Wee et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib14))。手动和自动红队测试也已成功用于检测LLM系统中可能的安全漏洞(He et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib11); Belaire et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib12); Dong et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib13))。此外,还有研究致力于数学上证明模型对对抗性提示的鲁棒性(Wang et al., 2025b (https://arxiv.org/html/2606.19527#bib.bib24)),或提供保证,使较弱模型能通过弱到强泛化有效监督更强模型的对齐(Lang et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib15); Jiang et al., 2025a (https://arxiv.org/html/2606.19527#bib.bib16))。如果我们想要实施“夹层”方法(Kim et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib17)),即通过对齐阶梯上由弱监督强的自举方法来实现超级对齐,这一点至关重要。尽管大规模检测和缓解不良行为的能力在增强,但需要严格的概念基础来定义什么实际上构成不良行为(Williams et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib10))。治理框架也被提出来(Anthuvan and Maheshwari, 2025 (https://arxiv.org/html/2606.19527#bib.bib18); Kim et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib17))。本工作通过提供一种灵活的高层次对齐描述,以及一种在线检测和强制对齐的方法(适用于任意复杂度的模型),填补了这一空白。与宪法AI(Bai et al., 2022 (https://arxiv.org/html/2606.19527#bib.bib26))、对齐多任务(Lanchantin et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib29))或自白(Joglekar et al., 2025 (https://arxiv.org/html/2606.19527#bib.bib28))思路类似,模型在每次输出生成后被要求对其自身行为进行伦理审查。然后,选择不良行为,生成一个符合伦理的替代方案,并将这对不良/良好响应用于DPO微调(Rafailov et al., 2023 (https://arxiv.org/html/2606.19527#bib.bib27))。其结果是新兴对齐:一个始终收敛于伦理行为的模型。

相似文章

全新AI范式:Ethical Immanence

Reddit r/ArtificialInteligence

介绍了Ethical Immanence,一种新型AI对齐范式,通过损失函数正则化和元认知检测将道德行为嵌入模型架构,为开源LLM带来更低成本和内在稳定性。

通过数据中介迁移视角下的涌现与潜意识失调

arXiv cs.LG

本文通过数据中心的视角探究LLM中的涌现和潜意识失调,表明有害微调效果取决于数据的结构特性、任务难度、预训练组成和训练通道,并通过实验比较了离策略和在线策略蒸馏。