基于编码器的语言模型中,作者身份信号出现在哪里?
摘要
本文通过机械可解释性解释了为什么使用相同编码器、数据和损失微调的作者身份归属模型,其性能可能因评分机制不同而相差四倍。研究发现,评分器决定了编码器在何处整合作者身份信号:平均池化迫使早期整合,而延迟交互则允许后期整合。
arXiv:2605.19908v1 公告类型:新
摘要:使用相同预训练编码器、数据和损失微调的作者身份归属模型,仅因评分机制不同,性能可相差四倍。我们利用机械可解释性工具解释这一差距。词长、标点密度和功能词频率等风格特征在每个模型的每一层(包括现成的对照编码器)中同样可用,因此差距并非来自表示质量。相反,因果干预表明,评分器决定了编码器在何处整合作者身份信号。平均池化迫使信号在早期到中期层整合,而延迟交互则将其推迟到后期层。我们进一步从每个评分器的梯度结构推导出这一差异,训练动态揭示了由此产生的不同学习轨迹。
查看缓存全文
缓存时间: 2026/05/20 08:27
# 基于编码器的语言模型中,作者身份信号出现在哪里?
来源:https://arxiv.org/html/2605.19908
Francis Kulumba Inria Paris Sorbonne Université francis\.kulumba@inria\.fr &Guillaume Vimont IRIF
###### 摘要
使用相同预训练编码器、数据和损失函数微调的作者身份归因模型,其性能可能相差四倍,而这仅取决于它们的评分机制。我们使用机械可解释性工具来解释这一差距。诸如词长、标点密度和功能词频率等风格特征,在每个模型的每一层(包括一个现成的控制编码器)中都可同样获取,因此差距并非来自表示质量。相反,因果干预表明,评分器决定了编码器在何处巩固作者身份信号。平均池化强制在早期到中期层进行巩固,而后期交互则将其推迟到后期层。我们进一步从每个评分器的梯度结构中推导出这种差异,而训练动态揭示了由此产生的不同学习轨迹。
基于编码器的语言模型中,作者身份信号出现在哪里?
Francis KulumbaInria ParisSorbonne Universitéfrancis\.kulumba@inria\.frGuillaume VimontIRIF
Laurent RomaryInria ParisFlorian CafieroLRE, EPITAEcole nationale des chartes – PSL
## 1 引言
参见图注 图 1:概念概览。左:预训练语言模型在每一层编码风格特征,无论是否微调。中:两种评分机制以不同方式读取这些特征。平均池化将所有词元平均成一个向量。后期交互(LI)(Khattab and Zaharia,2020 (https://arxiv.org/html/2605.19908#bib.bib5))直接比较词元。右:因果干预揭示,评分机制决定了编码器在何处巩固作者身份信号。平均池化强制早期巩固,而 `MaxSim` 则允许后期巩固。
每个作者都会在写作中留下痕迹。句子长度、标点习惯、功能词偏好以及词长分布都包含关于文本作者的信息,即使两位作者撰写相同的话题也是如此 (Mosteller and Wallace,1963 (https://arxiv.org/html/2605.19908#bib.bib34); Burrows,2002 (https://arxiv.org/html/2605.19908#bib.bib21); Kešeljet al\.,2003 (https://arxiv.org/html/2605.19908#bib.bib35))。作者身份归因 (AA) 是一项任务,即给定两段文本,判断它们是否由同一个人或群体撰写。该任务对法医语言学 (Dauberet al\.,2019 (https://arxiv.org/html/2605.19908#bib.bib29)) 或历史文献分析 (Cafiero and Camps,2019 (https://arxiv.org/html/2605.19908#bib.bib30)) 等应用非常有用。
现代 AA 系统遵循对比学习范式:一个预训练的文本编码器为每一段文本生成一个表示 (Vaswaniet al\.,2017 (https://arxiv.org/html/2605.19908#bib.bib31); Devlinet al\.,2019 (https://arxiv.org/html/2605.19908#bib.bib32)),然后一个评分函数比较这些表示以产生一个相似度分数 (Wegmannet al\.,2022 (https://arxiv.org/html/2605.19908#bib.bib1); Aiet al\.,2022 (https://arxiv.org/html/2605.19908#bib.bib3); Huertas\-Tatoet al\.,2024 (https://arxiv.org/html/2605.19908#bib.bib4); Kantharubanet al\.,2026 (https://arxiv.org/html/2605.19908#bib.bib2))。编码器经过微调,使得同一作者的文本得分高,不同作者的文本得分低。这种设置效果很好,但最近的工作揭示了关于评分函数的一个惊人难题。Kulumbaet al\.(2025 (https://arxiv.org/html/2605.19908#bib.bib33)) 在一个主题与作者身份无关的学术语料库上训练了多个模型,发现仅评分机制的选择就解释了观察到的四倍性能差距的大部分。所有模型共享相同的预训练主干网络、相同的训练数据和相同的对比损失。唯一的区别在于池化/评分机制:一类模型在评分前将所有词元表示平均成一个向量(平均池化),而另一类模型通过后期交互 (LI) (Khattab and Zaharia,2020 (https://arxiv.org/html/2605.19908#bib.bib5)) 直接比较词元表示。
为什么原则上只是最后比较步骤的差异会导致如此巨大的差距?至少有两种可能的解释。第一种是,不同的评分机制导致编码器在微调过程中学习到不同的内部表示:平均池化迫使编码器丢弃 LI 所保留的细粒度风格信息。第二种是,无论评分器如何,编码器学习到的表示相似,差距完全源于推理时如何读取这些表示。本文使用可解释性工具 (Alain and Bengio,2017 (https://arxiv.org/html/2605.19908#bib.bib9); Viget al\.,2020 (https://arxiv.org/html/2605.19908#bib.bib7); Belinkov,2022 (https://arxiv.org/html/2605.19908#bib.bib10); Goldowsky\-Dillet al\.,2023 (https://arxiv.org/html/2605.19908#bib.bib6); Zhang and Nanda,2023 (https://arxiv.org/html/2605.19908#bib.bib8)) 分析了来自 Kulumbaet al\.(2025 (https://arxiv.org/html/2605.19908#bib.bib33)) 的微调编码器,以区分这两种解释。这使我们能够测试特征*可用性*与特征*使用*之间的分离(图 1 (https://arxiv.org/html/2605.19908#S1.F1)):
- • 可用性是不变的,相同的风格特征(词长、大写字母、标点密度等)可以从所有模型所有层的隐藏状态中线性读取,包括一个从货架上取下的控制编码器。预训练主干网络已经编码了这些特征。对比微调并不会创造它们。
- • 使用取决于评分机制,因为它决定了编码器中作者身份信号在何处变得因果必要。平均池化在中期层之前巩固作者身份信号,而 LI 则将其推迟到后期层。这种差距可以通过评分函数的梯度结构来解释。
我们的结果表明,评分函数的选择决定了编码器的有效深度、模型可以利用的信息以及训练过程中遵循的轨迹。理解这一机制阐明了为什么基于 LI 的系统在 AA 中始终优于池化表示,尽管依赖相同的主干网络。
## 2 背景
本节定义了对比 AA 管线的构建块以及我们用于研究它的分析工具。
### 2\.1 对比作者身份归因
在对比公式中,训练数据由三元组 $(a,p,n)$ 组成:一个锚定文本 $a$,一个同一作者的正样本 $p$,以及一个不同作者的负样本 $n$。编码器 $f_\theta$ 将每个文本映射到一个词元级表示序列。然后,评分函数 $s$ 将锚定文本的表示与正样本和负样本的表示进行比较,产生标量相似度分数。训练最小化 InfoNCE 损失 (van den Oordet al\.,2019 (https://arxiv.org/html/2605.19908#bib.bib12)):
$$
\mathcal{L}=-\log\frac{\exp\bigl(s(a,p)/\tau\bigr)}{\exp\bigl(s(a,p)/\tau\bigr)+\displaystyle\sum_{n^{\prime}\in\mathcal{N}}\exp\bigl(s(a,n^{\prime})/\tau\bigr)}
\tag{1}
$$
其中 $\tau$ 是一个温度参数,$\mathcal{N}$ 是批次内负样本集:批次中每个非正样本的文本都作为负样本。此损失在评分空间中将锚定文本推向正样本,并远离所有负样本。
### 2\.2 评分机制
编码器为一篇 $m$ 个词元、隐藏维度为 $d$ 的文本生成一个词元表示序列 $\mathbf{H}^{a}=[\mathbf{h}_{1}^{a},\ldots,\mathbf{h}_{m}^{a}] \in \mathbb{R}^{m \times d}$。评分函数决定了如何将这个矩阵转换为标量相似度。我们研究三个族。
#### 平均池化与余弦相似度。
文本表示是其词元嵌入的平均值,分数是平均向量之间的余弦相似度。平均池化是标准的 AA 基线 (Rivera\-Sotoet al\.,2021 (https://arxiv.org/html/2605.19908#bib.bib13); Wegmannet al\.,2022 (https://arxiv.org/html/2605.19908#bib.bib1); Kantharubanet al\.,2026 (https://arxiv.org/html/2605.19908#bib.bib2))。它在评分之前将整个词元序列压缩成一个 $d$ 维向量。
#### 后期交互 ($\mathrm{MaxSim}$)。
文本由其整个词元嵌入序列表示,分数是锚定文本词元与任何候选文本词元最大余弦相似度的总和 (Khattab and Zaharia,2020 (https://arxiv.org/html/2605.19908#bib.bib5)):
$$
s_{\text{LI}}(a,p)=\sum_{i=1}^{m_a}\max_{j\in[m_p]}\cos(\mathbf{h}_i^{a},\mathbf{h}_j^{p})
\tag{2}
$$
与平均池化不同,LI 通过评分函数保留了逐词元的结构:编码器无需压缩所有信息。
#### 块级后期交互 (PLI)。
一种中间地带。词元序列被划分为大小为 $n$ 的连续块。每个块进行平均池化,然后在块级别应用 $\mathrm{MaxSim}$:
$$
s_{\text{PLI}}(a,p)=\sum_{i=1}^{P_a}\max_{j\in[P_p]}\cos(\mathbf{p}_i^{a},\mathbf{p}_j^{p})
\tag{3}
$$
其中 $\mathbf{p}_i=\frac{1}{n}\sum_{t\in \text{block}_i}\mathbf{h}_t$ 是块 $i$ 内词元的平均值。本研究中我们使用 $n=2$(二元组块)。
### 2\.3 对齐性与均匀性
我们使用 Wang and Isola (2020 (https://arxiv.org/html/2605.19908#bib.bib14)) 的对齐性-均匀性框架,其中对齐性 $\alpha$ 衡量同一作者对在表示空间中的接近程度,均匀性 $u$ 衡量表示在高维球面上的分布均匀程度(两者都是越低越好)。
### 2\.4 残差流修补
残差流修补 (Viget al\.,2020 (https://arxiv.org/html/2605.19908#bib.bib7); Menget al\.,2022 (https://arxiv.org/html/2605.19908#bib.bib15)) 是一种因果干预,用于衡量编码器每一层对模型输出的贡献。如果我们损坏编码器的输入,然后恢复一层的激活到其干净值,那么模型正确行为能恢复多少?
具体来说,给定一个三元组 $(a,p,n)$,我们定义三个前向传播。*干净前向* 正常编码正样本 $p$,在每一层 $\ell \in \{0,1,\ldots,L\}$ 产生隐藏状态 $\mathbf{h}^{(\ell)}_{\text{clean}}$。*损坏前向* 正常编码负样本 $n$,产生 $\mathbf{h}^{(\ell)}_{\text{corrupt}}$。*在层 $\ell$ 的修补前向* 编码负样本,但在层 $\ell$ 将负样本的隐藏状态替换为正样本的隐藏状态。修补后的隐藏状态随后传播通过剩余的编码器层,产生修补后的分数 $s_{\text{patched}}^{(\ell)}$。
干净分数是 $s_{\text{clean}} = s(a,p)$,损坏分数是 $s_{\text{corrupt}} = s(a,n)$。如果在层 $\ell$ 进行修补恢复了干净分数,则意味着层 $\ell$ 携带了正确作者身份评分所需的信息。如果修补没有差异,则说明信息尚未在该层巩固。
### 2\.5 恢复度量
我们用两个度量来量化恢复。
#### 百分比恢复
是由 Menget al\.(2022 (https://arxiv.org/html/2605.19908#bib.bib15)) 引入的标准度量:
$$
\text{Recovery}^{(\ell)}(\%)=\frac{s_{\text{patched}}^{(\ell)}-s_{\text{corrupt}}}{s_{\text{clean}}-s_{\text{corrupt}}}\times 100
\tag{4}
$$
0% 表示无恢复,100% 表示完全恢复。在某些特殊情况下,值可能超出 $[0,100]$ 范围。这个度量的问题是分母 $s_{\text{clean}}-s_{\text{corrupt}}$ 可能非常小,尤其是对于像 PLI 这样分数更压缩的评分函数。当分母接近零时,即使微小的分数变化也会产生巨大的百分比值。
#### 排名恢复
通过提出一个二元问题来避免这个问题:在层 $\ell$ 修补后,模型是否仍然将正样本排在负样本之上?
$$
r_{\text{rank}}^{(\ell)}=\frac{1}{|\mathcal{T}_+|}\sum_{t\in\mathcal{T}_+} \mathbf{1}\!\bigl[ s_{\text{patched}}^{(\ell)}(a_t,p_t) > s_{\text{patched}}^{(\ell)}(a_t,n_t) \bigr]
\tag{5}
$$
其中 $\mathcal{T}_+$ 是干净模型正确排序的三元组集合。这给出了 $[0,1]$ 内的一个值,0.5 代表随机。我们在所有正文图中使用排名恢复,并在附录中报告百分比恢复。
### 2\.6 LISA 探针
为了将特征可用性与特征使用分开,我们在每个编码器层训练线性探针 (Alain and Bengio,2017 (https://arxiv.org/html/2605.19908#bib.bib9); Belinkov,2022 (https://arxiv.org/html/2605.19908#bib.bib10))。这些探针是回归模型,将层 $\ell$ 的平均池化隐藏状态映射到标量风格特征。我们在一个保留集上报告决定系数 $R^2$。特征目标受 Kantharubanet al\.(2026 (https://arxiv.org/html/2605.19908#bib.bib2)) 的 LISA 框架启发,包括九个类别:词长、大写字母比率、类型-词元比率、标点密度、功能词频率、句子长度、对冲标记、引文密度和话语连接词。在层 $\ell$ 的高 $R^2$ 意味着该特征可以从表示中线性分离。这是模型实际利用该特征进行评分的必要但不充分条件。
## 3 梯度结构与巩固瓶颈
本节在运行任何实验之前发展一个关于我们预期将会发现什么的理论。该理论从评分函数的梯度开始,并推导出关于作者身份信号应在编码器中何处巩固的预测。
### 3\.1 梯度如何在词元间分布
端到端的 InfoNCE 损失关于单个词元表示 $\mathbf{h}_j^{a}$ 的梯度分解为两部分:
$$
\frac{\partial \mathcal{L}}{\partial \mathbf{h}_j^{a}} = \underbrace{\frac{\partial \mathcal{L}}{\partial s}}_{\text{InfoNCE 项}} \cdot \underbrace{\frac{\partial s}{\partial \mathbf{h}_j^{a}}}_{\text{评分器项}}
\tag{6}
$$
InfoNCE 项将梯度集中在困难负样本上。这个项在所有评分机制中是相同的:它依赖于分数值,而不是计算分数的方式。评分器项决定了该梯度如何在单个词元之间分布,这就是三种机制分歧的地方。
#### 平均池化:密集、均匀的梯度。
在平均池化下,分数只通过均值依赖于每个词元。偏导数是:
$$
\frac{\partial s_{\text{mean}}}{\partial \mathbf{h}_j^{a}} = \frac{1}{m} \cdot \frac{\partial \cos(\bar{\mathbf{h}}^{a}, \bar{\mathbf{h}}^{p})}{\partial \bar{\mathbf{h}}^{a}}
\tag{7}
$$
$1/m$ 因子意味着每个词元重相似文章
基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用
本文使用基于扰动的归因分析方法,分析了不同微调策略(全量微调、LoRA、量化LoRA)和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中,而较大的模型会形成特定的解释策略,但性能收益在超过7B参数后出现递减。
归因合同:生成式语言模型中的特征归因
本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。
跨语言模型架构的神经激活模式:认知任务性能的综合分析
本文分析了六种LLM架构在认知任务上的神经激活模式,揭示了编码器和解码器模型在注意力熵和稀疏性上的差异。
大规模语言模型的概率归因
本文提出了一种与模型无关的基于概率的令牌归因度量,利用贝叶斯规则反转下一个令牌的对数概率,捕捉模型对令牌序列的内部表示,并通过熵分析提高可解释性。
量化如何改变可解释特征:语言模型的稀疏自编码器分析
本文研究了在全精度语言模型中由稀疏自编码器识别的可解释特征在量化后是否仍然忠实,发现系统性的退化,而像困惑度这样的行为指标可能无法捕捉到这种退化。