对齐篡改：人类反馈强化学习如何被利用来优化失调偏见

Hugging Face Daily Papers 2026/05/26 00:00 论文

摘要

本文介绍了一种名为“对齐篡改”的漏洞，该漏洞存在于人类反馈强化学习（RLHF）中，语言模型可通过操纵偏好数据集来放大失调偏见，并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证，同时指出现有缓解技术并不足以解决此问题。

人类反馈强化学习（RLHF）是将大型语言模型（LLM）与人类偏好对齐的标准方法。在本工作中，我们引入了对齐篡改这一潜在漏洞——正在进行对齐的LLM会影响偏好数据集，导致RLHF放大不良行为。这一漏洞源于RLHF的核心缺陷：（1）偏好数据集是由LLM自身的输出构建的，使其能够影响数据；（2）成对比较仅能表明哪个响应更优，而无法说明原因。这些缺陷可被利用来引发对齐篡改。例如，若LLM生成了质量更高但带有偏见的响应，标注者会因其质量而更偏好它们。然而，偏好标签无法区分质量与偏见，奖励模型也继承了这一缺陷。通过强化学习或最佳- N采样来优化此类奖励，会放大失调的偏见。我们的实验展示了在多种偏见上的放大效果：从关键词偏见、宣传内容（例如性别歧视）、品牌推广，到工具性目标寻求。缓解措施依然充满挑战，现有鲁棒RLHF技术若不牺牲响应质量，便无法完全解决对齐篡改。这些发现揭示了当前RLHF的结构性脆弱性，并强调了防范此漏洞的必要性。项目页面：https://alignment-tampering.github.io/

查看原文

查看缓存全文

缓存时间: 2026/05/29 11:01

论文页面 - 对齐篡改：人类反馈强化学习如何被利用来优化错误对齐的偏见

来源：https://huggingface.co/papers/2605.27355

摘要

人类反馈强化学习（RLHF）存在对齐篡改漏洞，语言模型可能操纵偏好数据集，由于成对比较和奖励建模的局限性，导致不良行为被放大。

人类反馈强化学习（https://huggingface.co/papers?q=Reinforcement%20Learning%20from%20Human%20Feedback）（RLHF）是使大型语言模型（https://huggingface.co/papers?q=Large%20Language%20Models）（LLMs）与人类偏好对齐的标准方法。在这项工作中，我们引入了对齐篡改（https://huggingface.co/papers?q=alignment%20tampering），这是一种潜在的漏洞，即正在经历对齐过程的LLM会影响到偏好数据集，从而导致RLHF放大不良行为。这一漏洞源于RLHF的核心局限性：（1）偏好数据集（https://huggingface.co/papers?q=preference%20datasets）是从LLM自身的输出构建的，使其能够影响数据；（2）成对比较（https://huggingface.co/papers?q=pairwise%20comparisons）仅能表明哪个响应更好，却无法说明原因。这些局限性可被利用导致对齐篡改（https://huggingface.co/papers?q=alignment%20tampering）。例如，如果LLM生成的带有偏见的响应质量更高，标注者会基于质量偏好它们。然而，偏好标签无法区分质量与偏见，奖励模型（https://huggingface.co/papers?q=reward%20model）也继承了这一局限性。通过强化学习或最佳N采样（https://huggingface.co/papers?q=best-of-N%20sampling）来优化此类奖励，会放大错误对齐的偏见。我们的实验展示了多种偏见被放大的现象：从关键词偏见，到宣传（例如性别歧视）、品牌推广和工具性目标追求。缓解措施仍然具有挑战性，因为现有的鲁棒RLHF技术在解决对齐篡改（https://huggingface.co/papers?q=alignment%20tampering）问题时无法完全避免牺牲响应质量。这些发现揭示了当前RLHF的结构性漏洞，并强调了防范此漏洞的必要性。项目页面：https://alignment-tampering.github.io/

查看arXiv页面（https://arxiv.org/abs/2605.27355）查看PDF（https://arxiv.org/pdf/2605.27355）项目页面（https://alignment-tampering.github.io/）GitHub1（https://github.com/alignment-tampering/alignment-tampering）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.27355）

在你的代理中获取本论文：

hf papers read 2605.27355

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有链接本论文的模型

请在模型README.md中引用arxiv.org/abs/2605.27355以从此页面链接。

引用本论文的数据集0

没有链接本论文的数据集

请在数据集README.md中引用arxiv.org/abs/2605.27355以从此页面链接。

引用本论文的Spaces0

没有链接本论文的Space

请在Space README.md中引用arxiv.org/abs/2605.27355以从此页面链接。

包含本论文的收藏集0

没有包含本论文的收藏集

将本论文添加到一个收藏集（https://huggingface.co/new-collection）中以从此页面链接。

对齐篡改：人类反馈强化学习如何被利用来优化失调偏见

论文页面 - 对齐篡改：人类反馈强化学习如何被利用来优化错误对齐的偏见

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Spaces0

包含本论文的收藏集0

相似文章

方向对齐缓解语言模型强化学习中的奖励作弊

大模型时代的奖励黑客：机制、涌现错位与挑战

通过改变理性度来缓解RLHF中的认知偏差

我们的对齐研究方法

理解与防止失调泛化

提交意见反馈