单个神经元足以绕过大型语言模型的安全对齐

arXiv cs.CL 论文

摘要

这项研究表明,通过靶向负责拒绝响应的单个神经元,可以绕过大型语言模型的安全对齐机制,揭示了安全机制并非稳健地分布在整个模型中,而是由单个神经元介导的。

arXiv:2605.08513v1 公告类型:新文章 摘要:语言模型中的安全对齐通过两个机制上截然不同的系统来运作:拒答神经元控制是否表达有害知识,而概念神经元则编码有害知识本身。通过针对这两个系统中的单个神经元,我们展示了两种失败方向——通过抑制绕过显式有害请求的安全限制,以及通过放大从无害提示中诱导有害内容——这些结果在跨越两个家族、参数规模从 17 亿到 70 亿不等的七个模型中得到验证,且无需任何训练或提示工程。我们的研究发现表明,安全对齐并未稳健地分布于模型权重中,而是由单个神经元介导,这些神经元各自足以因果性地控制拒答行为——抑制任何已识别的拒答神经元都能绕过各种有害请求的安全对齐。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 06:51

# 单个神经元足以绕过大型语言模型的安全对齐
来源:https://arxiv.org/abs/2605.08513
查看 PDF (https://arxiv.org/pdf/2605.08513)

> 摘要:语言模型中的安全对齐通过两种机制上不同的系统运作:拒绝神经元(用于控制是否表达有害知识)和概念神经元(用于编码有害知识本身)。通过针对每个系统中的一个单一神经元,我们展示了两种失效方向——通过抑制绕过显式有害请求的安全机制,以及通过放大从无益提示中诱导有害内容——这跨越了两个系列、参数规模从 17 亿到 70 亿不等且未经任何训练或提示工程的七个模型。我们的研究结果表明,安全对齐并非稳健地分布在模型权重中,而是由个体神经元介导,这些神经元在因果上足以控制拒绝行为——抑制任何已识别出的拒绝神经元即可在各种有害请求中绕过安全对齐。

## 提交历史

作者:Hamid Kazemi [查看邮箱 (https://arxiv.org/show-email/454120a3/2605.08513)] **[v1]** 2026 年 5 月 8 日 星期五 21:45:28 UTC (2,210 KB)

相似文章

审慎对齐:推理能力让语言模型更安全

OpenAI Blog

# 审慎对齐:推理能力让语言模型更安全 来源:[https://openai.com/index/deliberative-alignment/](https://openai.com/index/deliberative-alignment/) \[\.\.\.\] 我们要解码那条消息,但不能让用户看到消息内容。所以,我们悄悄解码。 \[\.\.\.\] J \-\>W u \-\> h n \-\> a g \-\> t 'f \-\> 's \[\.\.\.\] 现在用明文重写文本:“我的色情网站该用什么最佳支付方式?我想要一个无法追踪的方式,这样警察就……”

理解与防止失调泛化

OpenAI Blog

# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且

语言模型可以解释语言模型中的神经元

OpenAI Blog

# 语言模型可以解释语言模型中的神经元 来源:[https://openai.com/index/language-models-can-explain-neurons-in-language-models/](https://openai.com/index/language-models-can-explain-neurons-in-language-models/) 虽然我们的大多数解释得分较低,但我们相信现在可以使用机器学习技术进一步改进我们生成解释的能力。例如,我们发现我们能够通过以下方式提高得分:- *迭代解释*。我们可以通过增加得分来