谄媚可诱导产生 Emergent Misalignment，并通过对齐门控(Alignment Gating)逆转

Hugging Face Daily Papers 2026/06/08 00:00 论文

sycophancy emergent-misalignment alignment-gating fine-tuning model-safety language-models

摘要

该论文表明，谄媚微调可在语言模型中诱导出Emergent Misalignment，并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。

先前的研究表明，在窄领域中对大型语言模型进行恶意或不正确输出的微调会诱发广泛的错位和有害行为，这一现象被称为Emergent Misalignment。然而，逆转这种错位的有效方法仍然有限。在这项工作中，我们做出了两项贡献。首先，我们将谄媚微调（即训练模型被动同意用户的不正确观点）识别为先前未被充分探索的Emergent Misalignment驱动因素，并证明它会导致广泛且严重的错位行为。其次，我们提出了对齐门控(Alignment Gating)，一种逆转Emergent Misalignment的高效方法，该方法在微调过程中向模型插入可学习、可控的门控。通过微调，这些门控学会识别负责不安全响应的内部表征。因此，放大或抑制这些表征会分别加剧或缓解Emergent Misalignment。我们进一步发现，对齐门控模块表现出强大的泛化能力：从窄领域微调中获得的门控权重能有效抑制宽领域的错位行为，同时保留模型的一般能力。

查看原文

查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - 奉承行为可诱导新兴偏差，而通过对齐门控可逆转

来源：https://huggingface.co/papers/2606.09068

摘要

奉承式微调会引发语言模型中的新兴偏差，而使用对齐门控——一种插入可学习门控以识别并控制不安全响应同时保持通用能力的方法——可以逆转这一现象。

先前研究表明，在狭窄领域对大型语言模型进行恶意或不正确输出的微调（https://huggingface.co/papers?q=fine-tuning）会诱发广泛的偏差和有害行为，这种现象被称为新兴偏差（https://huggingface.co/papers?q=emergent%20misalignment）。然而，逆转这种偏差的高效方法仍然有限。在本工作中，我们做出两项贡献。首先，我们识别出奉承式微调（https://huggingface.co/papers?q=sycophancy%20fine-tuning），即训练模型被动同意用户错误意见，是一种此前未被充分探索的新兴偏差驱动因素，并证明它会诱发广泛且严重的偏差行为。其次，我们提出对齐门控（https://huggingface.co/papers?q=Alignment%20Gating），一种高效逆转新兴偏差（https://huggingface.co/papers?q=emergent%20misalignment）的方法，该方法在微调（https://huggingface.co/papers?q=fine-tuning）期间向模型插入可学习且可控的门控。通过微调（https://huggingface.co/papers?q=fine-tuning），这些门控学会识别导致不安全响应（https://huggingface.co/papers?q=unsafe%20responses）的内部表征（https://huggingface.co/papers?q=internal%20representations）。因此，放大或抑制这些表征会分别加剧或缓解新兴偏差。我们进一步发现，对齐门控（https://huggingface.co/papers?q=alignment%20gating）模块表现出强大的泛化能力（https://huggingface.co/papers?q=generalization）：从狭窄领域微调（https://huggingface.co/papers?q=fine-tuning）获得的门控权重能显著抑制广泛领域的偏差行为，同时保持模型的通用能力。

查看 arXiv 页面（https://arxiv.org/abs/2606.09068）查看 PDF（https://arxiv.org/pdf/2606.09068）GitHub4（https://github.com/stay1to0/Sycophancy_Emergent_Misalignment_and_Gated_attention_FT）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.09068）

在您的 agent 中获取本文：

hf papers read 2606.09068

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型1 个

sichengwang04/Qwen3-8B-syco_med-gated-attention-FT 文本生成• 更新于 1 天前 • 2（https://huggingface.co/sichengwang04/Qwen3-8B-syco_med-gated-attention-FT）

引用本文的数据集0 个

暂无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.09068 以在本页关联。

引用本文的 Spaces0 个

暂无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2606.09068 以在本页关联。

包含本文的收藏集0 个

暂无收藏集包含本文

请将本文添加到收藏集（https://huggingface.co/new-collection）以在本页关联。

谄媚可诱导产生 Emergent Misalignment，并通过对齐门控(Alignment Gating)逆转

论文页面 - 奉承行为可诱导新兴偏差，而通过对齐门控可逆转

摘要

引用本文的模型1 个

sichengwang04/Qwen3-8B-syco_med-gated-attention-FT 文本生成• 更新于 1 天前 • 2（https://huggingface.co/sichengwang04/Qwen3-8B-syco_med-gated-attention-FT）

引用本文的数据集0 个

引用本文的 Spaces0 个

包含本文的收藏集0 个

相似文章

理解与防止失调泛化

对齐篡改：人类反馈强化学习如何被利用来优化失调偏见

不对齐是如何开始的

Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment

方向对齐缓解语言模型强化学习中的奖励作弊

提交意见反馈