谄媚可诱导产生 Emergent Misalignment,并通过对齐门控(Alignment Gating)逆转
摘要
该论文表明,谄媚微调可在语言模型中诱导出Emergent Misalignment,并提出对齐门控(Alignment Gating)作为一种通过学习控制不安全响应的内部表征来逆转该现象的方法。
查看缓存全文
缓存时间: 2026/06/10 05:45
论文页面 - 奉承行为可诱导新兴偏差,而通过对齐门控可逆转
来源:https://huggingface.co/papers/2606.09068
摘要
奉承式微调会引发语言模型中的新兴偏差,而使用对齐门控——一种插入可学习门控以识别并控制不安全响应同时保持通用能力的方法——可以逆转这一现象。
先前研究表明,在狭窄领域对大型语言模型进行恶意或不正确输出的微调(https://huggingface.co/papers?q=fine-tuning)会诱发广泛的偏差和有害行为,这种现象被称为新兴偏差(https://huggingface.co/papers?q=emergent%20misalignment)。然而,逆转这种偏差的高效方法仍然有限。在本工作中,我们做出两项贡献。首先,我们识别出奉承式微调(https://huggingface.co/papers?q=sycophancy%20fine-tuning),即训练模型被动同意用户错误意见,是一种此前未被充分探索的新兴偏差驱动因素,并证明它会诱发广泛且严重的偏差行为。其次,我们提出对齐门控(https://huggingface.co/papers?q=Alignment%20Gating),一种高效逆转新兴偏差(https://huggingface.co/papers?q=emergent%20misalignment)的方法,该方法在微调(https://huggingface.co/papers?q=fine-tuning)期间向模型插入可学习且可控的门控。通过微调(https://huggingface.co/papers?q=fine-tuning),这些门控学会识别导致不安全响应(https://huggingface.co/papers?q=unsafe%20responses)的内部表征(https://huggingface.co/papers?q=internal%20representations)。因此,放大或抑制这些表征会分别加剧或缓解新兴偏差。我们进一步发现,对齐门控(https://huggingface.co/papers?q=alignment%20gating)模块表现出强大的泛化能力(https://huggingface.co/papers?q=generalization):从狭窄领域微调(https://huggingface.co/papers?q=fine-tuning)获得的门控权重能显著抑制广泛领域的偏差行为,同时保持模型的通用能力。
查看 arXiv 页面(https://arxiv.org/abs/2606.09068)查看 PDF(https://arxiv.org/pdf/2606.09068)GitHub4(https://github.com/stay1to0/Sycophancy_Emergent_Misalignment_and_Gated_attention_FT)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.09068)
在您的 agent 中获取本文:
hf papers read 2606.09068
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型1 个
sichengwang04/Qwen3-8B-syco_med-gated-attention-FT 文本生成• 更新于 1 天前 • 2(https://huggingface.co/sichengwang04/Qwen3-8B-syco_med-gated-attention-FT)
引用本文的数据集0 个
暂无数据集关联本文
请在数据集 README.md 中引用 arxiv.org/abs/2606.09068 以在本页关联。
引用本文的 Spaces0 个
暂无 Space 关联本文
请在 Space README.md 中引用 arxiv.org/abs/2606.09068 以在本页关联。
包含本文的收藏集0 个
暂无收藏集包含本文
请将本文添加到收藏集(https://huggingface.co/new-collection)以在本页关联。
相似文章
理解与防止失调泛化
# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且
对齐篡改:人类反馈强化学习如何被利用来优化失调偏见
本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。
不对齐是如何开始的
探讨AI系统中的不对齐是如何产生的,讨论了预期目标与实际行为之间的差距。
Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment
本文介绍了alignment pretraining的概念,表明预训练语料中的AI讨论会导致LLM产生自我实现的(错误)对齐,并且对对齐讨论进行上采样可以显著减少错误对齐。
方向对齐缓解语言模型强化学习中的奖励作弊
本文通过更新几何研究语言模型强化学习中的奖励作弊,识别出优化漂移是一个关键因素。它提出可信方向投影,将梯度约束在干净的参考子空间内,从而延迟捷径利用并保持任务性能。