对齐篡改:人类反馈强化学习如何被利用来优化失调偏见
摘要
本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。
查看缓存全文
缓存时间: 2026/05/29 11:01
论文页面 - 对齐篡改:人类反馈强化学习如何被利用来优化错误对齐的偏见
来源:https://huggingface.co/papers/2605.27355
摘要
人类反馈强化学习(RLHF)存在对齐篡改漏洞,语言模型可能操纵偏好数据集,由于成对比较和奖励建模的局限性,导致不良行为被放大。
人类反馈强化学习(https://huggingface.co/papers?q=Reinforcement%20Learning%20from%20Human%20Feedback)(RLHF)是使大型语言模型(https://huggingface.co/papers?q=Large%20Language%20Models)(LLMs)与人类偏好对齐的标准方法。在这项工作中,我们引入了对齐篡改(https://huggingface.co/papers?q=alignment%20tampering),这是一种潜在的漏洞,即正在经历对齐过程的LLM会影响到偏好数据集,从而导致RLHF放大不良行为。这一漏洞源于RLHF的核心局限性:(1)偏好数据集(https://huggingface.co/papers?q=preference%20datasets)是从LLM自身的输出构建的,使其能够影响数据;(2)成对比较(https://huggingface.co/papers?q=pairwise%20comparisons)仅能表明哪个响应更好,却无法说明原因。这些局限性可被利用导致对齐篡改(https://huggingface.co/papers?q=alignment%20tampering)。例如,如果LLM生成的带有偏见的响应质量更高,标注者会基于质量偏好它们。然而,偏好标签无法区分质量与偏见,奖励模型(https://huggingface.co/papers?q=reward%20model)也继承了这一局限性。通过强化学习或最佳N采样(https://huggingface.co/papers?q=best-of-N%20sampling)来优化此类奖励,会放大错误对齐的偏见。我们的实验展示了多种偏见被放大的现象:从关键词偏见,到宣传(例如性别歧视)、品牌推广和工具性目标追求。缓解措施仍然具有挑战性,因为现有的鲁棒RLHF技术在解决对齐篡改(https://huggingface.co/papers?q=alignment%20tampering)问题时无法完全避免牺牲响应质量。这些发现揭示了当前RLHF的结构性漏洞,并强调了防范此漏洞的必要性。项目页面:https://alignment-tampering.github.io/
查看arXiv页面(https://arxiv.org/abs/2605.27355)查看PDF(https://arxiv.org/pdf/2605.27355)项目页面(https://alignment-tampering.github.io/)GitHub1(https://github.com/alignment-tampering/alignment-tampering)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.27355)
在你的代理中获取本论文:
hf papers read 2605.27355
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有链接本论文的模型
请在模型README.md中引用arxiv.org/abs/2605.27355以从此页面链接。
引用本论文的数据集0
没有链接本论文的数据集
请在数据集README.md中引用arxiv.org/abs/2605.27355以从此页面链接。
引用本论文的Spaces0
没有链接本论文的Space
请在Space README.md中引用arxiv.org/abs/2605.27355以从此页面链接。
包含本论文的收藏集0
没有包含本论文的收藏集
将本论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
方向对齐缓解语言模型强化学习中的奖励作弊
本文通过更新几何研究语言模型强化学习中的奖励作弊,识别出优化漂移是一个关键因素。它提出可信方向投影,将梯度约束在干净的参考子空间内,从而延迟捷径利用并保持任务性能。
大模型时代的奖励黑客:机制、涌现错位与挑战
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。
通过改变理性度来缓解RLHF中的认知偏差
本文提出了一种通过基于大型语言模型(LLM)对标注者可靠性的评估来动态调整理性度参数,从而缓解人类反馈强化学习(RLHF)中认知偏差的方法。
我们的对齐研究方法
OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。
理解与防止失调泛化
# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且