自我识别微调可以预防和逆转涌现性对齐失调

arXiv cs.CL 2026/06/24 04:00 论文

ai-safety alignment finetuning emergent-misalignment llm self-recognition

摘要

本文提出自我识别微调作为一种干预措施，用于预防和逆转大语言模型中的涌现性对齐失调，表明它稳定了模型的对齐特征，而非采用失调的角色。

arXiv:2606.23700v1 公告类型：新摘要：涌现性对齐失调已被发现与失调角色向量和邪恶特征激活相关，表明其通过破坏模型的对齐特征而非直接学习有害内容发挥作用。受此启发，我们研究了自我生成文本识别（SGTR）微调作为一种针对角色的干预措施，与现有的训练中防御方法不同。我们在三个模型（GPT-4.1、Qwen2.5-32B-Instruct、Seed-OSS-36B-Instruct）和多个涌现性对齐失调数据集上进行了两阶段微调实验，将自我生成文本识别微调与良性微调基线（正确的领域特定数据、通用知识和单词计数）进行比较，发现它在逆转和预防两种设置中都是有效的防御。我们发现所有干预措施都产生了可比较的涌现性对齐失调逆转，但仅限于恢复涌现性对齐失调所退化的能力。在预防方面，只有自我生成文本识别微调在不恶化任何个体指标的情况下持续减少了失调，表明特征强化专门驱动了预防。我们进一步提供了涌现性对齐失调与大语言模型默认角色相关的证据，表明涌现性对齐失调微调增加了大语言模型身份自我报告的多样性，人为破坏自我识别会加剧涌现性对齐失调微调引起的失调，并且移除模型的身份承载系统提示会显著降低涌现性对齐失调微调的效果。这些发现共同将涌现性对齐失调重新定义为不是采用一致的失调角色，而是对齐特征的失稳。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:43

# 自识别微调可防止并逆转涌现性失调
来源：https://arxiv.org/abs/2606.23700
查看 PDF（https://arxiv.org/pdf/2606.23700）

> 摘要：涌现性失调（EM）已被证明与失调人格向量及邪恶性格特质的激活有关，这表明 EM 是通过破坏模型已对齐的角色而非直接学习有害内容来起作用的。受此关联启发，我们研究了自生成文本识别（SGTR）微调作为一种针对角色进行干预的方法，它不同于现有的训练中防御手段。我们在三个模型（GPT-4.1、Qwen2.5-32B-Instruct、Seed-OSS-36B-Instruct）上进行了两阶段微调实验，并使用了多个 EM 数据集，将 SGTR 微调与良性微调基线（正确的领域特定数据、通用知识和单词计数）进行对比，发现 SGTR 微调在逆转和预防设置中均是一种有效的防御方法。我们发现所有干预手段都能产生相当的 EM 逆转效果，但仅限于恢复 EM 所削弱的能力。在预防方面，只有 SGTR 微调能够持续降低失调程度而不加剧任何单个指标，这表明角色强化是预防的关键。我们进一步为 EM 与大语言模型默认角色之间的关系提供了证据：EM 微调会诱导模型身份自我报告中出现多样性，人为破坏自识别会加剧 EM 微调导致的失调，而移除模型承载身份的系统提示会显著降低 EM 微调的效果。这些发现共同将 EM 重新定义为并非接纳一种连贯的失调人格，而是对对齐角色的去稳定化。

## 提交历史

来自：Arush Tagade \[查看邮件（https://arxiv.org/show-email/7bb9541c/2606.23700）\] **\[v1\]** 2026 年 6 月 4 日，星期四，00:04:58 UTC（2,132 KB）

自我识别微调可以预防和逆转涌现性对齐失调

相似文章

监督微调中涌现错位的特征空间监测

涌现对齐

谄媚可诱导产生 Emergent Misalignment，并通过对齐门控(Alignment Gating)逆转

理解与防止失调泛化

Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment

提交意见反馈