针对语言模型中性别化与性别中立生成的神经元级干预

arXiv cs.CL 论文

摘要

本文提出了一种神经元级干预方法,识别语言模型中的性别特定神经元(女性、男性、性别中立),并在保留语义的同时引导句子生成朝向目标性别形式,实验表明该方法可实现精确控制并缓解偏见。

arXiv:2605.30717v1 Announce Type: new 摘要:语言模型(LM)即使在给定中性提示时也可能产生性别化语言和刻板印象。先前关于LM中性别偏见的工作主要从二元视角(女性 vs. 男性)审视性别,对性别中立形式(如they/them代词或中性措辞的职位名称)关注有限。性别相关信号如何在LM的内部表示中编码仍是一个未解问题。在本工作中,我们研究了LM中跨三个类别(女性、男性、性别中立)的性别特定神经元。我们提出了一种神经元级干预方法,用于识别与每个性别类别强关联的神经元。然后,我们通过受控生成测试这些神经元,表明激活或掩蔽性别相关神经元可以在保留原始语义的同时将句子引导至目标性别形式。为了评估我们性别干预方法的有效性,我们整理了两个数据集,包含标注了所有三个性别类别的受控句子,并通过人工评估验证了数据质量。在两个开源LM上的实验表明,性别特定神经元并非均匀分布在模型层中;相反,它们高度集中在最早期的层中,后期层的贡献较小。与现有方法相比,我们的方法通过两个评估标准实现了更精确的性别控制,对非目标性别类别的泄漏更少,且输出质量稳定。总体而言,我们的工作考察了性别在LM中的编码方式,并提供了一种简单而有效的方法,用于受控性别干预,既适用于神经元干预评估,也适用于性别偏见缓解。代码和数据集可在以下网址获取:https://github.com/zhiwenyou103/Gender-Neuron-Intervention
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:28

# 语言模型中性别化和性别中性生成的神经元层级干预  
来源:https://arxiv.org/html/2605.30717  
Zhiwen You¹, Nafiseh Nikeghbal²,³, Jana Diesner¹,²,³  
¹伊利诺伊大学厄巴纳-香槟分校 ²慕尼黑工业大学 ³慕尼黑机器学习中心  

###### 摘要  
语言模型(LM)即使在给定中性提示时,也可能生成带有性别色彩的语言和刻板印象。先前关于LM中性别偏见的研究大多通过二元视角(女性 vs. 男性)审视性别,对性别中性形式(如单数they/them或中性表述的职业头衔)关注有限。性别相关信号如何在LM内部表征中编码仍是一个开放问题。在本工作中,我们研究LM中针对三种性别类别(女性、男性和性别中性)的特定神经元。我们提出一种神经元层级干预方法,以识别与每种性别类别紧密相关的神经元。随后通过受控生成测试这些神经元,表明激活或屏蔽与性别相关的神经元可以将句子转向目标性别形式,同时保留其原始含义。为评估性别干预方法的有效性,我们整理了两个数据集,其中包含在三种性别类别上标有受控句子,并通过人工评估验证数据质量。在两个开源LM上的实验表明,性别特定神经元在模型各层中并非均匀分布;相反,它们高度集中在最早层,来自较后层的贡献较小。与现有方法相比,我们的方法在两个评估标准下实现了更精确的性别控制,对非目标性别类别的泄漏更少,且输出质量稳定。总体而言,我们的工作考察了性别在LM中编码的方式,并为受控性别干预提供了一种简单而有效的方法,可用于神经元干预评估和性别偏见缓解。代码和数据集可在以下链接获取:![[未标注图片]](https://arxiv.org/html/2605.30717v1/x1.png) https://github.com/zhiwenyou103/Gender-Neuron-Intervention  

## 1 引言  
语言模型(LM)可能编码并生成带有偏见的语言,包括性别刻板印象以及性别与职业之间的不平等关联(Kotek等人,2023 (https://arxiv.org/html/2605.30717#bib.bib1); Dong等人,2024 (https://arxiv.org/html/2605.30717#bib.bib2); An等人,2025 (https://arxiv.org/html/2605.30717#bib.bib4); Nikeghbal等人,2025 (https://arxiv.org/html/2605.30717#bib.bib26))。这在面向用户的场景中是一个现实问题:中性输入仍可能触发性别化措辞,且措辞的微小差异可能改变谁被描述为有能力、有爱心或有权威。先前研究从不同方面探讨了LM的偏见问题。一些方法通过数据干预或结构化约束来编辑LM的输出(Thakur等人,2023 (https://arxiv.org/html/2605.30717#bib.bib5); Ma等人,2024 (https://arxiv.org/html/2605.30717#bib.bib6); Oba等人,2024 (https://arxiv.org/html/2605.30717#bib.bib8); You等人,2024a (https://arxiv.org/html/2605.30717#bib.bib27))。其他工作旨在找到模型内编码某一行为的位置,以更直接地干预偏见(Liu等人,2024 (https://arxiv.org/html/2605.30717#bib.bib15); Xu等人,2025 (https://arxiv.org/html/2605.30717#bib.bib16); Limisiewicz等人,2024 (https://arxiv.org/html/2605.30717#bib.bib14))。在基于Transformer的LM中(Vaswani等人,2017 (https://arxiv.org/html/2605.30717#bib.bib19)),前馈网络(FFN)层包含神经元,且先前工作表明特定行为可定位到这些神经元的子集(Tang等人,2024 (https://arxiv.org/html/2605.30717#bib.bib10); Lai等人,2024 (https://arxiv.org/html/2605.30717#bib.bib7))。例如,通过测量每个神经元对每种语言激活的频率,可以检测到语言特定神经元,然后使用低熵神经元来引导模型的输出语言(Tang等人,2024 (https://arxiv.org/html/2605.30717#bib.bib10))。类似地,可以找到风格特定神经元,然后停用它们以改进风格迁移,但这可能影响流畅性,需要仔细解码(Lai等人,2024 (https://arxiv.org/html/2605.30717#bib.bib7))。其他研究也探讨了与事实关系相关的神经元,表明停用它们会改变关系回忆(Liu等人,2025 (https://arxiv.org/html/2605.30717#bib.bib12))。这些发现引出了一个关于性别偏见研究的问题:*我们能否以同样的方式找到并控制与性别相关的神经元?*  
大多数关于LM性别偏见的研究主要关注二元性别(女性 vs. 男性)。然而,在现实案例中,*性别中性*词语也出现在LM的生成中,例如单数“they”、中性角色名词(如*fisher*),以及避免性别标记术语的包容性改写。在本研究中,我们提出一项关于性别偏见的神经元层级研究,涵盖三种性别类别:*女性*、*男性*和*中性*。为量化性别神经元识别的质量,我们评估了转换性别化句子的性能:给定一个输入句子,LM能否在我们停用已识别的性别神经元后,将其转换为目标形式(女性/男性/中性),同时保留含义。我们的贡献包括:  
- 我们引入了一种新的神经元干预方法,用于识别女性、男性和性别中性表征,将先前的二元性别分析扩展到三元。  
- 我们提出了一种新的评估协议,以衡量已识别性别神经元的有效性。  
- 我们整理了一个新数据集 InclusiveGender,包含用于每种性别类别的8,600个句子,并扩展了一个现有的二元性别数据集,添加了性别中性句子,用于三元性别分析。  

## 2 相关工作  
### 2.1 LM中的性别偏见与刻板印象  
LM可能产生性别化措辞,即使提示是中性的或未明确指定(Kotek等人,2023 (https://arxiv.org/html/2605.30717#bib.bib1); Dong等人,2023 (https://arxiv.org/html/2605.30717#bib.bib3); You等人,2024b (https://arxiv.org/html/2605.30717#bib.bib25); Lee等人,2025 (https://arxiv.org/html/2605.30717#bib.bib28))。除了代词,先前工作还报告了性别与社会角色(如职业)之间的关联,并分析了这些关联如何在模型输出和表征中出现(An等人,2025 (https://arxiv.org/html/2605.30717#bib.bib4))。其他工作讨论了如何评估和缓解LM中的性别偏见,包括关于负责任披露和实际缓解选择的指导(Dong等人,2024 (https://arxiv.org/html/2605.30717#bib.bib2))。  
几种缓解方法在推理层面运行,未明确探讨LM内部表征中编码的偏见。例如,一些研究使用少样本数据干预(Thakur等人,2023 (https://arxiv.org/html/2605.30717#bib.bib5))、结构化知识约束(Ma等人,2024 (https://arxiv.org/html/2605.30717#bib.bib6)),或推理时抑制有偏生成的上下文策略(Oba等人,2024 (https://arxiv.org/html/2605.30717#bib.bib8))来缓解性别偏见。这些方法有效,但通常对*模型内部何处*实现了性别化行为提供的洞察有限。此外,大多数研究仍然关注性别的二元框架,而性别中性形式(例如单数*they*、中性职位名称)探索较少,尽管它们越来越被视为通往包容性语言生成和翻译的可行路径(Piergentili等人,2023 (https://arxiv.org/html/2605.30717#bib.bib42); Dawkins等人,2025 (https://arxiv.org/html/2605.30717#bib.bib43); Savoldi等人,2025 (https://arxiv.org/html/2605.30717#bib.bib44))。  

### 2.2 探测与控制性别偏见  
先前工作通过探测和干预内部表征来研究和控制社会偏见,检查隐藏状态、注意力模式或前馈激活,并通过修改这些组件来测试因果关系(Liu等人,2024 (https://arxiv.org/html/2605.30717#bib.bib15); Manna等人,2025 (https://arxiv.org/html/2605.30717#bib.bib45); Hackenbuchner等人,2026 (https://arxiv.org/html/2605.30717#bib.bib46); Attanasio等人,2023 (https://arxiv.org/html/2605.30717#bib.bib47))。近期研究还提出了针对性干预措施,例如在推理期间移除或抑制与偏见相关的神经元(Yang等人,2024 (https://arxiv.org/html/2605.30717#bib.bib13))、停用耦合神经元以解决公平性相关的权衡(Qian等人,2025 (https://arxiv.org/html/2605.30717#bib.bib17)),或通过模型编辑技术编辑模型行为(Xu等人,2025 (https://arxiv.org/html/2605.30717#bib.bib16); Lutz等人,2024 (https://arxiv.org/html/2605.30717#bib.bib35))。  
我们的工作灵感来自属性特定神经元研究(Tang等人,2024 (https://arxiv.org/html/2605.30717#bib.bib10); Liu等人,2025 (https://arxiv.org/html/2605.30717#bib.bib12)),这些研究(1)识别与属性关联的一小组前馈神经元,以及(2)通过激活或停用这些神经元来引导生成。该方法已用于多语言控制(语言特定神经元,无论是自然语言还是编程语言)(Tang等人,2024 (https://arxiv.org/html/2605.30717#bib.bib10); Kojima等人,2024 (https://arxiv.org/html/2605.30717#bib.bib30); Kargaran等人,2025 (https://arxiv.org/html/2605.30717#bib.bib11); Wang等人,2025 (https://arxiv.org/html/2605.30717#bib.bib32); Stanczak等人,2022 (https://arxiv.org/html/2605.30717#bib.bib33); Zhang等人,2025 (https://arxiv.org/html/2605.30717#bib.bib34))以及控制写作风格(风格特定神经元)(Lai等人,2024 (https://arxiv.org/html/2605.30717#bib.bib7))。其他研究探讨了与事实关系相关的神经元,并使用神经元层级干预来改变关系行为(Liu等人,2025 (https://arxiv.org/html/2605.30717#bib.bib12))。此外,表征空间引导方法提取属性的方向(向量),并将其应用于影响生成(Cyberey等人,2025 (https://arxiv.org/html/2605.30717#bib.bib18))。  
与先前主要探测二元性别或仅关注输出缓解的性别工作相比,我们的方法研究了女性、男性和性别中性模式,并通过性别迁移测试(内部编辑是否因果性地改变性别化措辞同时保留含义)来评估神经元干预。  

## 3 方法  
参见图注:图1:我们性别特定神经元干预方法的概览。我们首先识别LM中的女性、男性和性别中性神经元。然后选择性地屏蔽非目标性别神经元,以将生成转向目标性别,从而实现受控的性别化生成,同时保留原始语义内容(详见第5.2节 (https://arxiv.org/html/2605.30717#S5.SS2))。  
在此,我们介绍干预LM中与性别相关神经元的方法(图1 (https://arxiv.org/html/2605.30717#S3.F1))。我们将在后续小节中解释该方法。  

### 3.1 神经元激活  
我们考虑三种性别类别:男性(\(m\))、女性(\(f\))和性别中性(\(n\))。对于每个数据集,\(s_i\)是一个输入句子,\(g \in \{m, f, n\}\)是其关联的性别标签。我们使用模型的分词器对每个句子进行分词,并按各自的性别标签分组,以创建三个不同的子集用于激活分析。我们关注模型多层感知器(MLP)块内的中间神经元。对于一个有\(L\)层的模型,\(h_j^{(l)}(x)\)表示给定输入token \(x\)在经过激活函数(例如SiLU(Elfwing等人,2018 (https://arxiv.org/html/2605.30717#bib.bib24)))后,第\(l\)层第\(j\)个神经元的激活值。为了研究神经元对不同性别的响应,我们计算每个性别特定子集中所有token上每个神经元的激活水平。对于Llama风格的门控MLP,我们定义中间激活为:  
\[ a^{(l)} = \text{SiLU}(W_{\text{gate}}^{(l)}h^{(l-1)}) \odot (W_{\text{up}}^{(l)}h^{(l-1)}), \]  
其中\(h^{(l-1)}\)表示来自前一层的隐藏状态,\(W_{\text{gate}}^{(l)}\)和\(W_{\text{up}}^{(l)}\)是可学习的权重矩阵,\(\text{SiLU}(\cdot)\)是Sigmoid线性单元激活函数,\(\odot\)表示逐元素乘法。对于每个性别类别\(g \in \{m, f, n\}\),我们通过模型处理相应的文本语料,并为每个层\(l\)中的每个神经元\(j\)累积token级统计量。当累积的激活平均值\(\bar{a}^{(l)} > 0\)时,认为该层的第\(j\)个神经元处于活跃状态。  

### 3.2 性别特定神经元识别与过滤  
基于近期神经元分析工作,我们使用一种组合排他性评分方法来识别表现出强性别特定行为的神经元。与先前关注语言特定(Tang等人,2024 (https://arxiv.org/html/2605.30717#bib.bib10))或生成风格神经元(Lai等人,2024 (https://arxiv.org/html/2605.30717#bib.bib7))的方法不同,我们解决了跨性别类别激活重叠的挑战,鉴于性别相关特征比语言或风格差异更微妙,这一点尤为重要。  
组合排他性评分。对于每个层\(l\)中的每个神经元\(j\),我们通过将其激活统计量与其他所有性别的聚合统计量进行比较,计算每个性别\(g\)的一对多排他性评分。我们计算三个互补的度量:  
(1) 效应量(Cohen's \(d\)):\( d_g^{(l,j)} = \frac{\mu_g^{(l,j)} - \mu_{\neg g}^{(l,j)}}{\sqrt{(\sigma_g^{2(l,j)} + \sigma_{\neg g}^{2(l,j)})/2}} \),  
(2) 对数几率差(\(\Delta\)):\( \Delta_g^{(l,j)} = \log\left(\frac{p_g^{(l,j)}}{1-p_g^{(l,j)}}\right) - \log\left(\frac{p_{\neg g}^{(l,j)}}{1-p_{\neg g}^{(l,j)}}\right) \),  
(3) 相对均值差(\(r\)):\( r_g^{(l,j)} = \frac{\mu_g^{(l,j)} - \mu_{\neg g}^{(l,j)}}{|\mu_{\neg g}^{(l,j)}| + \epsilon} \),  
其中\(\mu_{\neg g}\)和\(\sigma_{\neg g}^2\)表示除\(g\)之外所有性别的合并均值和方差。\(p_g^{(l,j)}\)表示目标性别正激活的比例,\(\epsilon\)是一个用于数值稳定性的小常数。  
最后,我们将每个分量在所有神经元上针对每个\(g\)进行归一化,并产生一个统一的排他性评分。在神经元选择中,一个神经元被选择为仅与性别\(g\)相关,如果:(1) \(g\)在所有性别中具有最高的排他性评分,且 (2) 该评分在多个标准上达到预定义的阈值(详见附录A (https://arxiv.org/html/2605.30717#A1))。这确保所选神经元对单一性别类别表现出清晰、明确的偏好。  

### 3.3 为受控生成屏蔽性别神经元  
为了验证已识别的神经元是否实际控制模型的生成,我们在推理过程中执行干预。我们应用一个

相似文章

大型语言模型的非线性干预

arXiv cs.CL

本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。

基于对比对搜索的靶向神经元调控

Hugging Face Daily Papers

对比神经元归因(CNA)识别出一组稀疏的MLP神经元,这些神经元能够区分有害提示和良性提示,从而在指令微调的大语言模型中实现有效的行为引导,同时不会降低输出质量。该方法在越狱基准测试上将拒绝率降低了50%以上,同时保持了流畅性。

语言模型可以解释语言模型中的神经元

OpenAI Blog

# 语言模型可以解释语言模型中的神经元 来源:[https://openai.com/index/language-models-can-explain-neurons-in-language-models/](https://openai.com/index/language-models-can-explain-neurons-in-language-models/) 虽然我们的大多数解释得分较低,但我们相信现在可以使用机器学习技术进一步改进我们生成解释的能力。例如,我们发现我们能够通过以下方式提高得分:- *迭代解释*。我们可以通过增加得分来

单个神经元足以绕过大型语言模型的安全对齐

arXiv cs.CL

这项研究表明,通过靶向负责拒绝响应的单个神经元,可以绕过大型语言模型的安全对齐机制,揭示了安全机制并非稳健地分布在整个模型中,而是由单个神经元介导的。