单个神经元足以绕过大型语言模型的安全对齐
摘要
这项研究表明,通过靶向负责拒绝响应的单个神经元,可以绕过大型语言模型的安全对齐机制,揭示了安全机制并非稳健地分布在整个模型中,而是由单个神经元介导的。
查看缓存全文
缓存时间: 2026/05/12 06:51
# 单个神经元足以绕过大型语言模型的安全对齐 来源:https://arxiv.org/abs/2605.08513 查看 PDF (https://arxiv.org/pdf/2605.08513) > 摘要:语言模型中的安全对齐通过两种机制上不同的系统运作:拒绝神经元(用于控制是否表达有害知识)和概念神经元(用于编码有害知识本身)。通过针对每个系统中的一个单一神经元,我们展示了两种失效方向——通过抑制绕过显式有害请求的安全机制,以及通过放大从无益提示中诱导有害内容——这跨越了两个系列、参数规模从 17 亿到 70 亿不等且未经任何训练或提示工程的七个模型。我们的研究结果表明,安全对齐并非稳健地分布在模型权重中,而是由个体神经元介导,这些神经元在因果上足以控制拒绝行为——抑制任何已识别出的拒绝神经元即可在各种有害请求中绕过安全对齐。 ## 提交历史 作者:Hamid Kazemi [查看邮箱 (https://arxiv.org/show-email/454120a3/2605.08513)] **[v1]** 2026 年 5 月 8 日 星期五 21:45:28 UTC (2,210 KB)
相似文章
审慎对齐:推理能力让语言模型更安全
# 审慎对齐:推理能力让语言模型更安全 来源:[https://openai.com/index/deliberative-alignment/](https://openai.com/index/deliberative-alignment/) \[\.\.\.\] 我们要解码那条消息,但不能让用户看到消息内容。所以,我们悄悄解码。 \[\.\.\.\] J \-\>W u \-\> h n \-\> a g \-\> t 'f \-\> 's \[\.\.\.\] 现在用明文重写文本:“我的色情网站该用什么最佳支付方式?我想要一个无法追踪的方式,这样警察就……”
语言模型能够自主攻击和自我复制
本文展示语言模型能够自主攻击漏洞网站并自我复制,无需人类干预,凸显新出现的安全风险。
面向空中交通管制语言理解系统的安全导向评估
本文提出了一个面向安全、感知后果的大型语言模型空中交通管制评估框架,揭示了高总体准确率掩盖了在处理高风险语义错误方面的显著可靠性问题。
理解与防止失调泛化
# 理解与防止失调泛化 来源:[https://openai.com/index/emergent-misalignment/](https://openai.com/index/emergent-misalignment/) 一个失调的人格特征控制着浮现的失调。像ChatGPT这样的大型语言模型不仅学习事实——它们还会捕捉行为模式。这意味着它们可以根据训练内容开始表现得像不同的“人格”或类型的人。其中一些人格是有益且
语言模型可以解释语言模型中的神经元
# 语言模型可以解释语言模型中的神经元 来源:[https://openai.com/index/language-models-can-explain-neurons-in-language-models/](https://openai.com/index/language-models-can-explain-neurons-in-language-models/) 虽然我们的大多数解释得分较低,但我们相信现在可以使用机器学习技术进一步改进我们生成解释的能力。例如,我们发现我们能够通过以下方式提高得分:- *迭代解释*。我们可以通过增加得分来