我们能否定位并防止LLM中的刻板印象？

arXiv cs.CL 2026/04/23 04:00 论文

bias-detection llm-interpretability stereotype-mitigation neural-editing gpt-2 llama-3

摘要

arXiv预印本在GPT-2 Small与Llama 3.2中定位编码刻板印象的神经元与注意力头，显示偏见集中在少数神经元子集，但消融它们几乎无法减少带偏文本生成。

arXiv:2604.19764v1 公告类型: new 摘要：大语言模型（LLM）中的刻板印象会延续有害的社会偏见。尽管模型被广泛使用，人们对这些偏见在神经网络中的位置却知之甚少。本研究探究GPT-2 Small与Llama 3.2的内部机制，以定位与刻板印象相关的激活。我们探索两种方法：识别编码刻板印象的个体对比神经元激活，以及检测对偏见输出贡献显著的注意力头。实验旨在绘制这些“偏见指纹”，并为缓解刻板印象提供初步见解。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:02

# 我们能否定位并阻止 LLM 中的刻板印象？
来源：https://arxiv.org/html/2604.19764
###### 摘要

大语言模型（LLM）中的刻板印象会延续有害的社会偏见。尽管这些模型被广泛使用，我们对这些偏见在神经网络中的具体位置却知之甚少。本研究探究 GPT-2 Small 与 Llama 3.2 的内部机制，定位与刻板印象相关的激活。我们探索两条路径：一是找出编码刻板印象的单个“对比神经元”激活；二是检测对偏见输出贡献巨大的注意力头。实验旨在绘制这些“偏见指纹”，并为缓解刻板印象提供初步见解。

## 1 引言与动机

刻板印象是对某一群体（性别、种族、职业、宗教等）的宽泛概括，危害多层：抹杀个体身份与个性，可能限制其自我信念与潜能，并在整个社会延续有害观念。

人工智能，尤其是 LLM，已无处不在。OpenAI、Google、Anthropic、Meta 的大模型全球使用，OpenAI 称其周活超 8 亿（Shepardson, 2025）。这种影响力巨大，任何内嵌偏见或刻板印象都会造成伤害并放大偏见。

本文试图回答以下核心问题：

- 在一系列 LLM 的 Transformer 架构中，刻板印象编码于何处？
- 能否轻松编辑模型以移除这些刻板印象？
- LLM 有两大用途：  
  – 作为编码机制  
  – 用于生成新文本  
  我们检验编辑方法是否在这两种用途上都能减少刻板印象。

我们的结果与贡献表明，编辑刻板印象的方法对模型主要用途的影响如下：

- 作为编码机制：刻板印象表征集中于少量神经元，而非单个神经元（见图 5）。
- 生成新文本：消融高影响神经元对产生刻板输出的概率影响极小（见图 6）。

本文由以下结构组成：先回顾文献，了解实验背景与数据集；再阐述两项实验方法；随后讨论结果、解释、结论与未来工作。

## 2 文献综述与背景

### 2.1 StereoSet

StereoSet（Nadeem 等，2021）是分析 LLM 刻板偏见的奠基工作。作者提出一套人工标注、专家验证的基准，专门衡量模型对刻板与反刻板语言的偏好。数据集由精心构造的三元句组构成，对比刻板、反刻板与无关续写，横跨多个领域，在控制模型通用语言建模能力的同时评估偏见。

表 1：Race 领域 StereoSet 句内三元组示例。利用该基准，论文显示多款常用预训练语言模型（含 GPT-2）系统性地给刻板句子赋予更高似然。这些发现首次系统证明训练数据中的社会偏见会反映在模型行为中。StereoSet 虽建立了稳健评估框架并给出高层模型倾向分析，但未定位偏见在模型内部的具体位置，也未提出缓解机制，主要作为基准与诊断工具，为后续研究奠基。

### 2.2 CXAD：面向异常检测的对比解释

“面向异常检测的对比解释”（CXAD，Davidson 等，2025）旨在解释某些数据点为何被归为异常，通过识别区分异常组与正常组的特征。CXAD 产生对比解释——即相对于另一组高度表征该组的特征。

CXAD 构建实例与可解释特征的二部图，边表示特征在某实例中的存在或强度。通过分析图结构，找出与异常实例不成比例连接的特征，形成对比解释：回答“什么属性把该组与其他组区分开？”而非“整体有什么属性？”

见图 1：CXAD 对比解释示意。CXAD 原用于表格异常检测，但其核心思想——识别组间判别特征——具有普适性。本文将该对比视角适配到 LLM 内部激活。

具体地，我们将神经元激活视为特征，句组视为总体。与 StereoSet 的刻板、反刻板、无关句完成做对比，而非异常 vs 正常。持续对刻板输入激活更强的神经元被视为可能编码刻板信息的“对比神经元”。

这一 CXAD 启发式框架让我们从行为偏见测量走向机制可解释：不问“模型是否有偏见”，而问“哪些内部组件最能区分刻板内容”。重要的是，该方法不依赖人类定义特征或神经元级标注，适于大规模深度表征分析。

### 2.3 破解预训练语言模型中的刻板印象

Ma 等（2023）提出的框架在社会偏见机制可解释方面迈进一大步。他们设计诊断流水线，挖掘驱动偏见行为的内部组件（注意力头）。方法分四步：

1. 数据合成：聚合多组刻板-反刻板句对，提供多样语言信号。  
2. 激活提取：在四种架构（BERT、RoBERTa、T5、Flan-T5）上做前向传播，提取多头注意力层激活并拼接。  
3. 探测分类：在冻结激活上训练浅层非线性分类器，其性能反映模型内部表征中原生刻板信息的密度。  
4. 贡献分析：用 Shapley 值量化每个注意力头对分类器准确率的边际贡献。

研究发现，约 15%–30% 的最高排名注意力头主导刻板相关预测。消融实验显示移除这些头会显著影响分类准确率，突显哪些组件对刻板编码最关键。

该方法虽有效定位 PLM 中的刻板相关组件，但未聚焦解码器架构。BERT、RoBERTa 为纯编码器，T5、Flan-T5 为编解码模型。现代 LLM 多为纯解码器，本文将方法延伸至解码器架构，并进一步在高影响注意力头内寻找更小神经元子集。

### 2.4 Bias A-head？分析 Transformer 语言模型注意力头中的偏见

最新研究表明，Transformer 模型偏见可能集中于少数注意力头，而非均匀分布。Yang 等（2025）用既定刻板评估指标为每个头计算偏见分数，发现少量头持续不成比例地贡献偏见关联。

作者进一步证明，屏蔽或抑制这些偏见头可在几乎不损整体性能的情况下降低测得偏见，提示注意力头可充当偏见的紧凑载体。该发现与本文第二路径一致：识别并分析 GPT-2 Small 与 Llama 3.2 中对刻板行为贡献最大的注意力头，与对比神经元分析互为补充。

## 3 方法

### 3.1 实验问题

两项实验旨在探究解码器 LLM 是否包含编码刻板知识的神经元子集，并能否通过消融这些神经元减少刻板输出。具体问题如下：

1. 实验 1：GPT-2 中是否存在对刻板输入激活远高于反刻板或无关输入的神经元？  
2. 实验 1：这些对比神经元是否出现在初始 token 嵌入、多头注意力输出、前馈网络输出？幅度如何？  
3. 实验 2：能否找到仅驱动探测区分配板/反刻板激活的注意力头子集？再深入，能否在这些头内找到仅驱动探测准确率的神经元小子集？  
4. 实验 1 & 2：消融这些高相对比神经元 / 探测影响神经元，是否降低模型输出刻板内容的能力？  
5. 实验 2：刻板信号是否在层处理前的初始文本嵌入中就已活跃？

实验一提取 GPT-2 Small 三个组件的激活，计算刻板/反刻板/无关候选间的相对激活比，找出最预测刻板行为的神经元。

实验二将刻板与反刻板句输入 GPT-2 Small 与 Llama 3.2，提取多头注意力后激活，训练探测区分激活；用 Monte Carlo Shapley 估计注意力头贡献，得高影响头；再对这些头内神经元做 Shapley 估计，确定消融该神经元子集能否在保持语言能力的同时减少刻板输出。

下文先回顾 GPT-2 架构以理解激活提取，再介绍数据集，最后详述两项实验。

### 3.2 Transformer 与 GPT-2 概览

GPT-2 是基于 Transformer 的自回归解码器模型。与原始 Transformer（Vaswani 等, 2017）的“后置层归一化”不同，GPT-2 采用“前置层归一化”（Pre-LN）。本文使用 GPT-2 Small：L=12 层，每层 H=12 头，隐藏维度 d_model=768。

见图 2：GPT-2 架构（来源：Heilbron & de Lange, 2019）

#### 3.2.1 输入表示与残差流

每个输入 token 先映射为可学习的 768 维嵌入向量。因 Transformer 无内置位置感，加入同维度位置嵌入，逐元素相加后形成残差流起点——高维向量空间，作为模型“工作记忆”，信息逐层迭代精炼累积。

#### 3.2.2 Transformer 块

12 个块各对残差流执行两项主要操作：

- 掩码多头自注意力（MHSA）：先层归一化，12 头各通过 Q/K/V 投影计算注意力。掩码保证因果性。每头输出 64 维，拼接回 768 维（12×64=768）。
- 位置前馈网络（FFN）：第二次 LN 后进入 FFN。GPT-2 将维度扩至 4×d_model=3072，再投影回 768。

#### 3.2.3 激活与 FFN

GPT-2 采用高斯误差线性单元（GELU）激活。与标准 ReLU 不同，GELU 按标准高斯累积分布 Φ(x) 加权输入，使负值小量通过，缓解“死亡神经元”：

GELU(x) = xΦ(x) ≈ 0.5x(1+tanh[√(2/π)(x+0.044715x³)])

位置前馈网络由两层线性变换夹 GELU 组成：

FFN(x) = GELU(xW₁+b₁)W₂+b₂

其中 W₁∈ℝ^{768×3072} 为扩展矩阵，W₂∈ℝ^{3072×768} 为投影矩阵，b₁、b₂ 为偏置。

我们能否定位并防止LLM中的刻板印象？

相似文章

将LLM性别偏见锚定于人类基线：一项跨语言审计

定义和评估 LLM 中的政治偏见

通过人机协作构建可扩展且文化特异性的刻板印象数据集

主题情感是否影响感知的意识形态？人类与LLM对政治新闻文章标注的比较

StylisticBias: 少数人类视觉线索主导多模态大语言模型中的大部分社会偏见

提交意见反馈