LoRA适配器的特征几何：微调语言模型中表征差异的稀疏自编码器分析

arXiv cs.LG 2026/05/29 04:00 论文

摘要

本文使用稀疏自编码器分析了语言模型中LoRA诱导表征的几何结构，发现LoRA更新占据的部分特征结构无法完全被预训练的可解释性词典捕获。

arXiv:2605.28896v1 公告类型：新摘要：低秩适配（LoRA）已成为一种广泛用于适配大型语言模型的方法，但LoRA微调引起的内部表征变化仍未被充分理解。在本工作中，我们使用稀疏自编码器（SAEs）研究了LoRA诱导表征的几何结构。我们引入了一个增量激活框架，用于分离适配器对残差流的贡献。使用Gemma-2-9B模型，并设置LoRA秩为4、8、16和32，我们在多个Transformer层上训练了针对适配器的SAEs，并将它们学到的特征空间与预训练的SAE词典进行比较。我们使用解码器方向之间的余弦相似度、特征子空间的主角分析以及激活表征之间的中心核对齐（CKA）来评估表征对齐度。在不同层和秩上，我们一致观察到LoRA诱导的特征词典与预训练的SAE特征之间存在相对较弱的几何对齐。针对适配器的SAEs在重建增量激活方面也比预训练的SAEs更有效，这表明LoRA更新在残差流中占据了部分独特的表征结构。此外，特征密度随秩和深度增加，而几何发散性在不同秩之间保持相对稳定。这些发现提供了实证证据，表明LoRA微调可能诱导出无法完全被预训练可解释性词典捕获的特征结构，这对机制可解释性、适配分析以及微调语言模型的安全审计具有重要意义。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:12

# 微调语言模型中表征差异的稀疏自编码器分析
来源：https://arxiv.org/html/2605.28896
\(2026年5月\)

###### 摘要

低秩自适应（LoRA）已成为适配大型语言模型的广泛采用方法，但LoRA微调所引发的内部表征变化仍未被充分理解。在本工作中，我们利用稀疏自编码器（SAE）研究LoRA诱导的表征几何结构。我们引入一个delta激活框架，将适配器对残差流的贡献分离为

hΔ=hadapted−hbase=BAx。\\mathbf\{h\}\_\{\\Delta\}=\\mathbf\{h\}\_\{\\text\{adapted\}\}\-\\mathbf\{h\}\_\{\\text\{base\}\}=\\mathbf\{B\}\\mathbf\{A\}\\mathbf\{x\}。使用Gemma-2-9B，并设置LoRA秩r∈\{4,8,16,32\}r\\in\\\{4,8,16,32\\\}，我们在多个Transformer层上训练适配器专用的SAE，并将其学习到的特征空间与预训练的SAE词典进行比较。我们使用解码器方向间的余弦相似度、特征子空间的主角分析以及激活表征间的中心核对齐（CKA）来评估表征对齐程度。在多个层和秩上，我们一致观察到LoRA诱导的特征词典与预训练SAE特征之间存在相对较弱的几何对齐。适配器专用的SAE在重构delta激活方面也优于预训练SAE，这表明LoRA更新在残差流中占据了部分独特的表征结构。此外，特征密度随秩和深度增加，而几何差异在不同秩间保持相对稳定。这些发现提供了经验证据，表明LoRA微调可能诱导出预训练可解释性词典无法完全捕获的特征结构，这对微调语言模型的机制可解释性、适配分析及安全审计具有重要意义。

## 1 引言

大型语言模型（LLM）越来越多地作为微调变体而非基础模型部署，其中LoRA（Hu et al., 2022 (https://arxiv.org/html/2605.28896#bib.bib12)）是主流的适配方法。LoRA将权重更新约束为低秩分解ΔW=BA\\Delta\\mathbf\{W\}=\\mathbf\{B\}\\mathbf\{A\}，其中B∈Rd×r\\mathbf\{B\}\\in\\mathbb\{R\}^\{d\\times r\}，A∈Rr×d\\mathbf\{A\}\\in\\mathbb\{R\}^\{r\\times d\}，且秩r≪dr\\ll d。尽管LoRA广泛应用于指令微调、领域适配和安全对齐，但关于LoRA对模型内部特征几何结构的影响几乎一无所知。

机制可解释性文献在利用稀疏自编码器表征基础模型方面取得了重大进展（Bricken et al., 2023 (https://arxiv.org/html/2605.28896#bib.bib5); Templeton et al., 2024 (https://arxiv.org/html/2605.28896#bib.bib17)），这些自编码器将叠加的残差流激活分解为稀疏的、近似单语义的特征方向。然而，这个工具集几乎只应用于基础模型或未经区分的RLHF微调变体（Cunningham et al., 2023 (https://arxiv.org/html/2605.28896#bib.bib6); Gemma Scope, 2024 (https://arxiv.org/html/2605.28896#bib.bib11)）。LoRA微调在特征层面的后果仍未被探索。

这一空白在多个方面至关重要。首先，通过LoRA进行安全微调很普遍，但如果适配器在基础模型可解释性工具无法观察到的表征子空间中运行，安全审计可能系统性地不完整。其次，近期工作（Yang et al., 2023 (https://arxiv.org/html/2605.28896#bib.bib18); Qi et al., 2023 (https://arxiv.org/html/2605.28896#bib.bib15)）表明，安全微调很容易被后续微调撤销，但对其机制原因的解释仍然缺失。第三，理解LoRA在特征层面编码的内容是进行原则性适配器设计和控制的前提。

#### 我们的贡献。

我们做出以下贡献：

1. 1. delta SAE框架：我们引入一种方法，专门针对适配器引起的激活增量hΔ=hadapted−hbase\\mathbf\{h\}\_\{\\Delta\}=\\mathbf\{h\}\_\{\\text\{adapted\}\}\-\\mathbf\{h\}\_\{\\text\{base\}\}训练SAE，从而对适配器贡献进行机制上清晰的分解。
2. 2. 三指标几何分析：我们通过余弦相似度、主角分析和CKA提供收敛性证据，证明LoRA适配器特征占据了一个与基础模型特征几何上不同的子空间。
3. 3. 系统性秩分析：我们表明，秩影响特征密度和CKA表征距离，但不影响适配器特征的基本几何新颖性。
4. 4. 安全影响：我们识别出由适配器与基础特征几何分离导致的监控空白，这对基于LoRA的对齐具有参考意义。

## 2 背景与相关工作

### 2.1 低秩自适应

LoRA（Hu et al., 2022 (https://arxiv.org/html/2605.28896#bib.bib12)）通过添加低秩更新来修改预训练权重矩阵W0∈Rdout×din\\mathbf\{W\}\_\{0\}\\in\\mathbb\{R\}^\{d\_\{\\text\{out\}\}\\times d\_\{\\text\{in\}\}\}：

W=W0+αrBA\\mathbf\{W\}=\\mathbf\{W\}\_\{0\}+\\frac\{\\alpha\}\{r\}\\mathbf\{B\}\\mathbf\{A\}\(1\)其中B∈Rdout×r\\mathbf\{B\}\\in\\mathbb\{R\}^\{d\_\{\\text\{out\}\}\\times r\}，A∈Rr×din\\mathbf\{A\}\\in\\mathbb\{R\}^\{r\\times d\_\{\\text\{in\}\}\}，r≪dr\\ll d，且α\\alpha是缩放超参数。基础权重W0\\mathbf\{W\}\_\{0\}被冻结；仅训练A\\mathbf\{A\}和B\\mathbf\{B\}。

对于给定输入x\\mathbf\{x\}，适配器对残差流的贡献为：

hΔ=αrBAx\\mathbf\{h\}\_\{\\Delta\}=\\frac\{\\alpha\}\{r\}\\mathbf\{B\}\\mathbf\{A\}\\mathbf\{x\}\(2\)这个增量与输入相关，并存在于完整的dd维残差流中，尽管权重更新是秩-rr的。激活增量的有效秩取决于输入分布，并且可能远大于rr。

### 2.2 用于机制可解释性的稀疏自编码器

叠加假说（Elhage et al., 2022 (https://arxiv.org/html/2605.28896#bib.bib8)）认为，神经网络通过将特征表示为近似正交的方向，从而在比维度数更多的特征中实现编码，允许许多稀疏特征叠加。SAE提供了分解这种叠加的实用工具（Bricken et al., 2023 (https://arxiv.org/html/2605.28896#bib.bib5)）：

z\\displaystyle\\mathbf\{z\}=ReLU(Wenc(h−bdec)+benc)\\displaystyle=\\text\{ReLU\}(\\mathbf\{W\}\_\{\\text\{enc\}\}(\\mathbf\{h\}-\\mathbf\{b\}\_\{\\text\{dec\}\})+\\mathbf\{b\}\_\{\\text\{enc\}\})\(3\)h^\\displaystyle\\hat\{\\mathbf\{h\}\}=Wdecz+bdec\\displaystyle=\\mathbf\{W\}\_\{\\text\{dec\}\}\\mathbf\{z\}+\\mathbf\{b\}\_\{\\text\{dec\}\}\(4\)损失为L=‖h−h^‖22+λ‖z‖1\\mathcal\{L\}=\\\|\\mathbf\{h\}-\\hat\{\\mathbf\{h\}\}\\\|\_\{2\}^\{2\}+\\lambda\\\|\\mathbf\{z\}\\\|\_\{1\}，其中λ\\lambda控制稀疏性。

Gemma Scope（Gemma Scope, 2024 (https://arxiv.org/html/2605.28896#bib.bib11)）为Gemma-2-9B的所有层提供了预训练SAE，这些SAE基于基础模型的残差流激活进行训练。每个SAE在dmodel=3584d\_\{\\text\{model\}\}=3584维的残差流中学习一个包含dSAE=16384d\_\{\\text\{SAE\}\}=16384个特征方向的词典。

### 2.3 几何相似性度量

我们使用三种互补的几何度量：

余弦相似度。对于两个单位向量u,v\\mathbf\{u\},\\mathbf\{v\}：sim(u,v)=u⊤v\\text\{sim\}(\\mathbf\{u\},\\mathbf\{v\})=\\mathbf\{u\}^\{\\top\}\\mathbf\{v\}。我们报告每个delta SAE特征与任何Gemma Scope特征的最大余弦相似度。

主角。对于子空间A\\mathcal\{A\}和B\\mathcal\{B\}，具有标准正交基QA\\mathbf\{Q\}\_\{A\}和QB\\mathbf\{Q\}\_\{B\}，主角θ1,...,θk\\theta\_\{1\},\\ldots,\\theta\_\{k\}定义为cosθi=σi(QA⊤QB)\\cos\\theta\_\{i\}=\\sigma\_\{i\}(\\mathbf\{Q\}\_\{A\}^\{\\top\}\\mathbf\{Q\}\_\{B\})（Björck & Golub, 1973 (https://arxiv.org/html/2605.28896#bib.bib4)）。接近90°90\\textdegree的角表示正交子空间；接近0°0\\textdegree的角表示对齐的子空间。

线性CKA。中心核对齐（Kornblith et al., 2019 (https://arxiv.org/html/2605.28896#bib.bib14)）度量对正交变换和各向同性缩放不变的表征相似性：

CKA(X,Y)=‖Y⊤X‖F2‖X⊤X‖F‖Y⊤Y‖F\\text\{CKA\}(\\mathbf\{X\},\\mathbf\{Y\})=\\frac\{\\\|\\mathbf\{Y\}^\{\\top\}\\mathbf\{X\}\\\|\_\{F\}^\{2\}\}\{\\\|\\mathbf\{X\}^\{\\top\}\\mathbf\{X\}\\\|\_\{F\}\\\|\\mathbf\{Y\}^\{\\top\}\\mathbf\{Y\}\\\|\_\{F\}\}\(5\)

## 3 方法：Delta SAE框架

### 3.1 动机

将标准SAE分析应用于hadapted\\mathbf\{h\}\_\{\\text\{adapted\}\}会混淆基础模型表征与适配器贡献。为了隔离适配器添加的内容，我们直接处理激活增量。根据公式2 (https://arxiv.org/html/2605.28896#S2.E2)，hΔ=hadapted−hbase\\mathbf\{h\}\_\{\\Delta\}=\\mathbf\{h\}\_\{\\text\{adapted\}\}\-\\mathbf\{h\}\_\{\\text\{base\}\}正是适配器的贡献——机制上清晰且不含基础模型信号。

### 3.2 Delta激活提取

我们使用前向钩子捕获每个Transformer层之后的残差流激活。对于输入序列X\\mathbf\{X\}和目标层L={5,10,18,22,32,38}\\mathcal\{L\}=\\\{5,10,18,22,32,38\\\}：

算法1 Delta激活提取1:foreach 输入

x∈Dprobe\\mathbf\{x\}\\in\\mathcal\{D\}\_\{\\text\{probe\}\}do

2:

hbase(ℓ)←BaseModel(x)|layerℓ\\mathbf\{h\}\_\{\\text\{base\}\}^\{\(\\ell\)\}\\leftarrow\\text\{BaseModel\}(\\mathbf\{x\})\\big\|\_\{\\text\{layer \}\\ell\}∀ℓ∈L\\forall\\ell\\in\\mathcal\{L\}
3:

hadapted(ℓ)←LoRAModel(x)|layerℓ\\mathbf\{h\}\_\{\\text\{adapted\}\}^\{\(\\ell\)\}\\leftarrow\\text\{LoRAModel\}(\\mathbf\{x\})\\big\|\_\{\\text\{layer \}\\ell\}∀ℓ∈L\\forall\\ell\\in\\mathcal\{L\}
4:

hΔ(ℓ)←hadapted(ℓ)−hbase(ℓ)\\mathbf\{h\}\_\{\\Delta\}^\{\(\\ell\)\}\\leftarrow\\mathbf\{h\}\_\{\\text\{adapted\}\}^\{\(\\ell\)\}-\\mathbf\{h\}\_\{\\text\{base\}\}^\{\(\\ell\)\}
5:endfor

6:存储：

hbase\\mathbf\{h\}\_\{\\text\{base\}\}一次（所有秩共享）；

hΔ\\mathbf\{h\}\_\{\\Delta\}每个秩分别存储

hbase\\mathbf\{h\}\_\{\\text\{base\}\}存储一次，并在所有秩之间共享，因为基础模型相同。hadapted\\mathbf\{h\}\_\{\\text\{adapted\}\}即时计算，并在增量计算后丢弃。

### 3.3 Delta SAE训练

对于每个（秩，层）对，我们在hΔ\\mathbf\{h\}\_\{\\Delta\}向量上训练一个专用的SAE。令NN表示token向量数量。我们在训练前应用RMS归一化：

h~Δ=hΔσRMS其中σRMS=1N∑i=1N‖hΔ(i)‖2\\tilde\{\\mathbf\{h\}\}\_\{\\Delta\}=\\frac\{\\mathbf\{h\}\_\{\\Delta\}\}\{\\sigma\_\{\\text\{RMS\}\}\}\\quad\\text\{其中\}\\quad\\sigma\_\{\\text\{RMS\}\}=\\frac\{1\}\{N\}\\sum\_\{i=1\}^\{N\}\\\|\\mathbf\{h\}\_\{\\Delta\}^\{\(i\)\}\\\|\_\{2\}\(6\)尺度σRMS\\sigma\_\{\\text\{RMS\}\}为每个SAE保存，用于下游分析中的反归一化。SAE损失为：

LΔ=‖h~Δ−h~^Δ‖22+λ1‖z‖1\\mathcal\{L\}\_\{\\Delta\}=\\\|\\tilde\{\\mathbf\{h\}\}\_\{\\Delta\}-\\hat\{\\tilde\{\\mathbf\{h\}\}\}\_\{\\Delta\}\\\|\_\{2\}^\{2\}+\\lambda\_\{1\}\\\|\\mathbf\{z\}\\\|\_\{1\}\(7\)其中λ1=0.15\\lambda\_\{1\}=0.15是通过超参数搜索确定的，目标是将L0≈30L\_\{0\}\\approx 30–5050个活跃特征每token（见第6节 (https://arxiv.org/html/2605.28896#S6)）。

### 3.4 词典相似性分析

为了测量delta SAE与Gemma Scope词典之间的几何对齐，我们为每个delta特征方向di∈WdecΔ\\mathbf\{d\}\_\{i\}\\in\\mathbf\{W\}\_\{\\text\{dec\}\}^\{\\Delta\}计算：

si=maxj cos(di,gj)其中gj∈WdecGSs\_\{i\}=\\max\_\{j\}\\cos(\\mathbf\{d\}\_\{i\},\\mathbf\{g\}\_\{j\})\\quad\\text\{其中\}\\quad\\mathbf\{g\}\_\{j\}\\in\\mathbf\{W\}\_\{\\text\{dec\}\}^\{\\text\{GS\}\}\(8\)这需要每层进行16384×16384=26816384\\times 16384=268百万次比较，以内存高效的方式按512个特征一组进行计算。

### 3.5 主角计算

我们通过SVD提取每个解码器矩阵的前kk（k=256k=256）个主方向，并计算子空间之间的主角：

cosθi=σi(QΔ⊤QGS)\\cos\\theta\_\{i\}=\\sigma\_\{i\}\\\!\\left(\\mathbf\{Q\}\_\{\\Delta\}^\{\\top\}\\mathbf\{Q\}\_\{\\text\{GS\}\}\\right)\(9\)其中QΔ,QGS∈Rd×k\\mathbf\{Q\}\_\{\\Delta\},\\mathbf\{Q\}\_\{\\text\{GS\}\}\\in\\mathbb\{R\}^\{d\\times k\}是来自各自解码器矩阵SVD的标准正交基。

## 4 实验设置

### 4.1 模型与架构

我们使用Gemma-2-9B（Gemma Team, 2024 (https://arxiv.org/html/2605.28896#bib.bib10)）（google/gemma-2-9b）作为基础模型：dmodel=3584d\_\{\\text\{model\}\}=3584，42个Transformer层，16个查询头，8个键/值头（分组查询注意力（Ainslie et al., 2023 (https://arxiv.org/html/2605.28896#bib.bib1)）），总计9.24×1099.24\\times 10^\{9\}个参数。

对于SAE，我们使用Gemma Scope（Gemma Scope, 2024 (https://arxiv.org/html/2605.28896#bib.bib11)）（google/gemma-scope-9b-pt-res），这是宽度为dSAE=16384d\_\{\\text\{SAE\}\}=16384（扩展因子≈4.6×\\approx 4.6\\times）的预训练残差流SAE。

### 4.2 LoRA适配器训练

我们训练四个LoRA适配器，仅改变秩r∈{4,8,16,32}r\\in\\\{4,8,16,32\\\}，所有其他超参数固定以确保可控比较。配置总结在表1 (https://arxiv.org/html/2605.28896#S4.T1)中。

表1：LoRA训练配置设置α=2r\\alpha=2r确保有效权重更新缩放α/r=2.0\\alpha/r=2.0在所有秩上保持不变，从而将秩作为唯一变量。表2 (https://arxiv.org/html/2605.28896#S4.T2)显示了训练结果。

表2：LoRA适配器训练结果训练损失随秩单调递减（r2=0.997r^\{2\}=0.997），证实了更高秩的适配器学习到更具表达力的表征。

### 4.3 数据集

适配器训练：tatsu-lab/alpaca（Alpaca, 2023 (https://arxiv.org/html/2605.28896#bib.bib2)），10,000个样本（索引0–9,999）。选择它是因为其多样化的指令遵循格式以及在LoRA文献中的标准使用。

激活探测集：2,000个样本（索引5,000–6,999），按多样性分桶覆盖五个类别：创意、事实、推理、编码和实用（每类400个样本）。这确保了SAE训练具有广泛的激活覆盖。

保留评估集：200个样本（索引11,000–11,199）——在适配器训练或SAE训练期间从未见过。

### 4.4 Delta SAE配置

表3：Delta SAE训练配置
### 4.5 目标层

我们分析层L={5,10,18,22,32,38}\\mathcal\{L\}=\\\{5,10,18,22,32,38\\\}，选择覆盖早期（5, 10）、中期（18, 22）和晚期（32, 38）处理阶段。预训练的Gemma Scope SAE在所有目标层上以width_16k的形式提供。

## 5 结果

### 5.1 激活增量表征

表4 (https://arxiv.org/html/2605.28896#S5.T4)报告了跨层和跨秩的hΔ\\mathbf\{h\}\_\{\\Delta\}的平均L2L\_\{2\}范数。

表4：跨层和跨秩的均值Delta范数‖hΔ‖2\\\|\\mathbf\{h\}\_\{\\Delta\}\\\|\_\{2\}参见标题图1：跨层和跨秩的Delta范数热图。Delta范数从第5层到第38层增加了大约18×18\\times倍，表明适配器对残差流的影响随深度增强。值得注意的是，秩与Delta幅度之间的关系是非单调的：r=8r=8在第38层产生了最大的范数（345.45），超过了r=32r=32（330.81）。Delta在所有残差维度上均表现出非零方差，表明其广泛分布于残差流中，而非局限于

LoRA适配器的特征几何：微调语言模型中表征差异的稀疏自编码器分析

相似文章

RDP LoRA：基于几何轨迹的大语言模型参数高效适配层选择方法

PermDoRA——理解语言模型中的适配器干扰：参数空间几何的局限性

稀疏自编码器中概念学习与神经元解释的几何视角

量化如何改变可解释特征：语言模型的稀疏自编码器分析

Video2LoRA: 视觉-语言模型的参数化视频内化

提交意见反馈