自我识别微调可以预防和逆转涌现性对齐失调
摘要
本文提出自我识别微调作为一种干预措施,用于预防和逆转大语言模型中的涌现性对齐失调,表明它稳定了模型的对齐特征,而非采用失调的角色。
arXiv:2606.23700v1 公告类型:新
摘要:涌现性对齐失调已被发现与失调角色向量和邪恶特征激活相关,表明其通过破坏模型的对齐特征而非直接学习有害内容发挥作用。受此启发,我们研究了自我生成文本识别(SGTR)微调作为一种针对角色的干预措施,与现有的训练中防御方法不同。我们在三个模型(GPT-4.1、Qwen2.5-32B-Instruct、Seed-OSS-36B-Instruct)和多个涌现性对齐失调数据集上进行了两阶段微调实验,将自我生成文本识别微调与良性微调基线(正确的领域特定数据、通用知识和单词计数)进行比较,发现它在逆转和预防两种设置中都是有效的防御。我们发现所有干预措施都产生了可比较的涌现性对齐失调逆转,但仅限于恢复涌现性对齐失调所退化的能力。在预防方面,只有自我生成文本识别微调在不恶化任何个体指标的情况下持续减少了失调,表明特征强化专门驱动了预防。我们进一步提供了涌现性对齐失调与大语言模型默认角色相关的证据,表明涌现性对齐失调微调增加了大语言模型身份自我报告的多样性,人为破坏自我识别会加剧涌现性对齐失调微调引起的失调,并且移除模型的身份承载系统提示会显著降低涌现性对齐失调微调的效果。这些发现共同将涌现性对齐失调重新定义为不是采用一致的失调角色,而是对齐特征的失稳。
查看缓存全文
缓存时间: 2026/06/24 07:43
# 自识别微调可防止并逆转涌现性失调 来源:https://arxiv.org/abs/2606.23700 查看 PDF(https://arxiv.org/pdf/2606.23700) > 摘要:涌现性失调(EM)已被证明与失调人格向量及邪恶性格特质的激活有关,这表明 EM 是通过破坏模型已对齐的角色而非直接学习有害内容来起作用的。受此关联启发,我们研究了自生成文本识别(SGTR)微调作为一种针对角色进行干预的方法,它不同于现有的训练中防御手段。我们在三个模型(GPT-4.1、Qwen2.5-32B-Instruct、Seed-OSS-36B-Instruct)上进行了两阶段微调实验,并使用了多个 EM 数据集,将 SGTR 微调与良性微调基线(正确的领域特定数据、通用知识和单词计数)进行对比,发现 SGTR 微调在逆转和预防设置中均是一种有效的防御方法。我们发现所有干预手段都能产生相当的 EM 逆转效果,但仅限于恢复 EM 所削弱的能力。在预防方面,只有 SGTR 微调能够持续降低失调程度而不加剧任何单个指标,这表明角色强化是预防的关键。我们进一步为 EM 与大语言模型默认角色之间的关系提供了证据:EM 微调会诱导模型身份自我报告中出现多样性,人为破坏自识别会加剧 EM 微调导致的失调,而移除模型承载身份的系统提示会显著降低 EM 微调的效果。这些发现共同将 EM 重新定义为并非接纳一种连贯的失调人格,而是对对齐角色的去稳定化。 ## 提交历史 来自:Arush Tagade \[查看邮件(https://arxiv.org/show-email/7bb9541c/2606.23700)\] **\[v1\]** 2026 年 6 月 4 日,星期四,00:04:58 UTC(2,132 KB)
相似文章
监督微调中涌现错位的特征空间监测
本文提出了一种特征空间监测方法,通过在激活空间中跟踪表示漂移来检测LLM在监督微调期间的涌现错位,实现了0.990的AUROC,假阳性率和假阴性率低,优于无监督基线。
涌现对齐
本文介绍了涌现对齐(Emergent Alignment)这一自监督方法,该方法为大型语言模型(LLMs)赋予一个“良心”步骤,用于审查自身输出,并利用直接偏好优化(DPO)引导模型远离非伦理行为,从而实现在无需外部评判者的情况下进行在线对齐。
谄媚可诱导产生 Emergent Misalignment,并通过对齐门控(Alignment Gating)逆转
该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。
理解与防止失调泛化
# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且
Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment
本文介绍了alignment pretraining的概念,表明预训练语料中的AI讨论会导致LLM产生自我实现的(错误)对齐,并且对对齐讨论进行上采样可以显著减少错误对齐。