量化如何改变可解释特征:语言模型的稀疏自编码器分析

arXiv cs.LG 论文

摘要

本文研究了在全精度语言模型中由稀疏自编码器识别的可解释特征在量化后是否仍然忠实,发现系统性的退化,而像困惑度这样的行为指标可能无法捕捉到这种退化。

arXiv:2606.03002v1 Announce Type: new 摘要:量化是部署大型语言模型的标准途径,当量化后的模型的困惑度或下游准确性接近全精度原始模型时,通常认为该模型是可接受的。但模型是否仍然以相同的方式进行计算,或者全精度模型中识别出的可解释特征是否在权重舍入后依然存在,却很少被测试,尽管安全审计和干预引导越来越依赖这些特征。我们研究从密集全精度模型中提取的稀疏自编码器(SAE)特征在模型量化后是否仍然忠实。使用冻结的SAE作为固定测量基础,我们编码相同Token上的全精度和最近舍入(RTN)量化激活,并通过皮尔逊相关系数量化每个特征的生存率,在Pythia-70M和Gemma-2-2B上扫描从INT8到INT4的位宽。我们发现特征生存是分级的:特征系统性地退化而非一次性全部失败,在Pythia-70M上INT6时有62.4%的活跃特征存活,在Gemma-2-2B上INT6时有51.3%存活,且大多数非存活特征是模糊而非被破坏。生存率仅从全精度统计数据即可预测,交叉验证AUC值为0.92至0.97,峰值激活是最强的边际预测因子。关键的是,任务指标可能遗漏这种损害:在Gemma-2-2B上,INT7改善了困惑度,但同时退化了18.7%的特征。最后,量化和匹配困惑度的幅度剪枝会损害高度重叠的特征集,Jaccard重叠为0.79至0.86,损害分数的Spearman相关系数为0.98,这表明了一种由压缩引起的共同脆弱性模式。这些结果表明,行为对等性并不足以证明可解释性发现可以迁移到量化部署中,这促使需要进行特征级的压缩审计。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:41

# 语言模型稀疏自编码器分析:量化如何改变可解释特征

来源:https://arxiv.org/html/2606.03002

## 量化如何改变可解释特征:语言模型稀疏自编码器分析

###### 摘要

量化是部署大型语言模型的标准路径,通常当量化后的模型困惑度或下游准确率接近原始全精度模型时,即被认为可接受。但模型是否仍以相同方式计算——即全精度模型中可解释性研究所识别的可解释特征在权重量化后是否仍然存活——却很少被检验,尽管越来越多基于这些特征的安全审计和引导干预研究正在建立。我们探究,从密集全精度模型中提取的稀疏自编码器(SAE)特征在该模型被量化后是否仍然保真。使用冻结的SAE作为固定测量基础,我们对相同令牌上的全精度和最近邻舍入(RTN)量化激活进行编码,并通过皮尔逊相关系数量化每个特征的存活情况,在Pythia-70M和Gemma-2-2B上扫描从INT8到INT4的位宽。我们发现特征存活是分级的:特征并非一次性全部失效,而是系统性退化,在INT6下,Pythia-70M有62.4%、Gemma-2-2B有51.3%的活跃特征存活,且大多数非存活特征只是模糊而非完全损坏。仅凭全精度统计量即可预测存活情况(交叉验证AUC 0.92–0.97),其中峰值激活是最强的边际预测因子。关键的是,任务指标可能掩盖这种损伤:在Gemma-2-2B上,INT7在降低困惑度的同时却使18.7%的特征退化。最后,量化和匹配困惑度的幅度剪枝会损伤高度重叠的特征集(杰卡德系数0.79–0.86;损伤分数斯皮尔曼相关系数0.98),表明存在一种由压缩引起的共同易损模式。因此,我们得出结论:行为等价性不足以证明可解释性结论可以迁移到量化部署,并且需要针对压缩进行特征级审计。

## 1 引言

量化是规模化部署大型语言模型的标准路径:将权重从16位浮点数舍入到8位、4位或更少位,可以在保持标准评估指标下任务级性能的同时减少内存和延迟(Xiao等人,2023(https://arxiv.org/html/2606.03002#bib.bib6);Frantar等人,2022(https://arxiv.org/html/2606.03002#bib.bib7);Li等人,2024(https://arxiv.org/html/2606.03002#bib.bib8))。这种评估几乎总是行为上的。通常,当量化后模型的困惑度或下游基准准确率接近原始全精度模型时,即被认为可接受。但模型是否仍以相同方式计算——即全精度模型中可解释性研究所识别的内部特征是否在舍入后存活——却很少被检验。

这个问题日益重要。稀疏自编码器(SAE)已成为将语言模型激活分解为可解释特征的标准工具(Cunningham等人,2023(https://arxiv.org/html/2606.03002#bib.bib11)),并且越来越多的工作基于从全精度模型中提取的特征构建分析、安全审计和引导干预(Chalnev等人,2024(https://arxiv.org/html/2606.03002#bib.bib12);O’Brien等人,2024(https://arxiv.org/html/2606.03002#bib.bib13);Bayat等人,2025(https://arxiv.org/html/2606.03002#bib.bib14))。如果这些模型随后以量化形式部署,那么用于推理模型行为的特征可能不再是部署模型实际使用的特征。因此,压缩下可解释性的可靠性是可解释性在部署中发挥作用的前提条件,然而对于量化而言,这一点在很大程度上仍未得到表征。

最接近的先前工作研究了剪枝下SAE特征的变化(Borobia等人,2026(https://arxiv.org/html/2606.03002#bib.bib15))。我们转而研究量化,探究在一个密集全精度模型上训练的SAE,当同一个模型以低位权重部署时,是否仍然保真。使用冻结的SAE作为固定测量基础,我们在相同令牌上比较全精度和最近邻舍入(RTN)量化模型,并测量每个SAE特征在权重重化后是否仍然对齐。在Pythia-70M和Gemma-2-2B上,我们从8位扫描到4位RTN,根据全精度统计量预测特征存活情况,与剪枝进行比较,并将特征保真度与困惑度相关联。

我们做出以下实证贡献:

**特征存活是分级的。** 随着位宽减小,SAE特征并非一次性全部失效,而是系统性退化。在INT6下,Pythia-70M的存活率降至62.4%,Gemma-2-2B降至51.3%,大多数非存活特征只是退化而非完全损坏。

**特征存活是可预测的。** INT6下的存活率可以通过全精度特征统计量预测,交叉验证AUC在Pythia-70M上为0.92,在Gemma-2-2B上为0.97。峰值激活是最强的边际预测因子:高峰值特征可靠存活,而弱信号特征最容易受到舍入引起的扰动影响。

**困惑度可能掩盖特征损伤。** 在Gemma-2-2B上,INT7在降低困惑度的同时却使18.7%的活跃SAE特征退化。在滑动窗口评估下,INT6同样改善了困惑度,但仅有51.3%的活跃特征存活,表明任务级指标可能低估表征变化。

**量化和剪枝损伤相似特征。** 在相似的困惑度范围内,RTN量化和幅度剪枝影响高度重叠的特征集,杰卡德重叠系数为0.79–0.86,损伤分数的斯皮尔曼相关系数为0.98。这表明尽管压缩机制不同,但存在一种共同的由压缩引起的特征易损模式。

综上所述,这些结果表明,仅凭行为指标不足以证明全精度可解释性结论可以迁移到量化部署。

## 2 相关工作

### 2.1 稀疏自编码器与单语义特征

稀疏自编码器(SAE)将语言模型的密集激活向量分解为更大的一组稀疏、可单独解释的特征,为叠加假说(网络表示的特征数超过其维度数)提供了实用回应(Elhage等人,2022(https://arxiv.org/html/2606.03002#bib.bib9))。Bricken等人(2023(https://arxiv.org/html/2606.03002#bib.bib10))表明,在语言模型激活上训练的SAE能够恢复单语义特征,Cunningham等人(2023(https://arxiv.org/html/2606.03002#bib.bib11))证明了恢复的特征高度可解释。Templeton等人(2024(https://arxiv.org/html/2606.03002#bib.bib21))将该方法扩展到生产模型,Gemma Scope项目(Lieberum等人,2024(https://arxiv.org/html/2606.03002#bib.bib22))发布了Gemma-2系列各层的预训练残差流SAE,为我们Gemma实验提供了标准化的字典。

越来越多的工作基于SAE特征构建分析、审计和引导干预(Chalnev等人,2024(https://arxiv.org/html/2606.03002#bib.bib12);O’Brien等人,2024(https://arxiv.org/html/2606.03002#bib.bib13);Bayat等人,2025(https://arxiv.org/html/2606.03002#bib.bib14)),通常使用从全精度模型中提取的特征。SAE作为测量工具的可靠性本身也是一个活跃问题。Paulo和Belrose(2025(https://arxiv.org/html/2606.03002#bib.bib16))表明,在相同数据上使用不同随机种子训练的SAE会学到显著不同的特征;Chanin和Garriga-Alonso(2025(https://arxiv.org/html/2606.03002#bib.bib17))表明特征恢复对稀疏性超参数敏感。最近的方法旨在稳定SAE训练:Jedryszek和Crook(2026(https://arxiv.org/html/2606.03002#bib.bib18))增加权重正则化惩罚,提高了跨种子的特征共享性和引导可靠性;其他工作鼓励并行或连续SAE训练运行之间的收敛(Marks等人,2024(https://arxiv.org/html/2606.03002#bib.bib19);Martin-Linares和Ling,2025(https://arxiv.org/html/2606.03002#bib.bib20))。这条工作线关注的是SAE训练侧引入的变异性;这与我们的问题互补,我们关注的是模型压缩侧引入的变异性。在我们的实验中,SAE保持固定,只有模型权重变化,因此SAE训练变异性并非我们测量的特征变化的来源。

### 2.2 语言模型压缩

量化和剪枝是两种主要的训练后压缩方法。量化降低数值精度:最近邻舍入是最简单的方案,而GPTQ和AWQ更仔细地减少量化误差(Frantar等人,2022(https://arxiv.org/html/2606.03002#bib.bib7);Lin等人,2024(https://arxiv.org/html/2606.03002#bib.bib24));混合精度和低位格式在部署中已很常见(Dettmers等人,2022(https://arxiv.org/html/2606.03002#bib.bib25);2023(https://arxiv.org/html/2606.03002#bib.bib26))。剪枝则移除权重:幅度剪枝移除最小幅度的权重(Han等人,2015(https://arxiv.org/html/2606.03002#bib.bib23)),而SparseGPT和Wanda为大型语言模型提供了可扩展的一次性剪枝方法(Frantar和Alistarh,2023(https://arxiv.org/html/2606.03002#bib.bib27);Sun等人,2024(https://arxiv.org/html/2606.03002#bib.bib28))。两种压缩家族通常通过困惑度或下游准确率评估;我们转而测量量化下的特征级表征变化,并使用剪枝作为匹配困惑度的基线。

### 2.3 压缩下的可解释性

基于SAE的可解释性与模型压缩的交集仍然鲜有探索。最接近的先前工作是Borobia等人(2026(https://arxiv.org/html/2606.03002#bib.bib15)),他们研究了非结构化剪枝如何重塑多个模型家族、剪枝方法和稀疏度水平下的SAE特征。他们发现稀有、低发放率的特征比频繁发放的特征更能在剪枝中存活;Wanda比幅度剪枝更好地保留特征结构;几何特征存活不一定能预测消融下的因果重要性。我们的工作沿三个维度有所不同。首先,我们研究量化而非剪枝:权重量化保留所有参数但降低其精度,而剪枝则完全移除权重。其次,我们使用冻结的全精度SAE对相同的密集和压缩激活进行编码,直接测量每个特征的相关性,而不是重新训练和匹配不同的SAE字典。第三,我们从INT8变化位宽到INT4,将特征存活作为精度的函数而非稀疏性的函数进行追踪。

## 3 方法

参照图例图1:QDM流程:我们使用相同的冻结SAE对相同令牌上的FP16和压缩激活进行编码,通过每个特征的相关性 \(c_j\) 测量特征存活。

我们测量固定SAE特征在底层语言模型被压缩后如何变化。在所有条件下,我们保持SAE、令牌集和读取位置固定,仅变化模型权重。本节描述模型和SAE、压缩算子、特征稳定性度量、行为评估、剪枝基线、脆弱性预测器和稳定性检查。符号和阈值约定的紧凑词汇表见附录J(https://arxiv.org/html/2606.03002#A10)。

### 3.1 模型、SAE和读取位置

我们研究两个模型,参数范围约30倍:Pythia-70M-deduped(Biderman等人,2023(https://arxiv.org/html/2606.03002#bib.bib5))和Gemma-2-2B(Gemma团队等人,2024(https://arxiv.org/html/2606.03002#bib.bib4))。对于每个模型,我们在固定的读取层使用公开可用的残差流SAE:Pythia-70M使用 `pythia-70m-deduped-res-sm` SAE在 `blocks.4.hook_resid_post`;Gemma-2-2B使用宽度 \(d_{\mathrm{sae}}=16384\) 的Gemma Scope第12层残差流SAE。附录K(https://arxiv.org/html/2606.03002#A11)总结了模型、SAE、令牌预算和评估配置。

记 \(h^{(l)}(t;\theta)\) 为模型 \(f_\theta\) 在第 \(l\) 层、令牌位置 \(t\) 处的残差流激活。一个固定的SAE编码器 \(E\) 将此激活映射到特征空间:
\[
z(t;\theta) = E\left(h^{(l)}(t;\theta)\right),
\]
其中 \(z_j(t;\theta)\) 是特征 \(j\) 的激活值。在所有压缩条件下,\(E\)、令牌集和读取层固定;只有模型参数 \(\theta\) 变化。

### 3.2 压缩算子

我们考虑两类权重压缩。两者都应用于Transformer块线性权重:注意力投影、MLP投影,以及对于Gemma-2-2B的门控MLP的门投影。层归一化和嵌入参数保持全精度。精确的模块名称模式和排除项见附录L(https://arxiv.org/html/2606.03002#A12)。

#### 最近邻舍入量化(RTN)

对于每个目标张量 \(W\),我们应用逐输出通道的RTN量化。对于位宽 \(b\),有符号范围 \(q_{\min} = -2^{b-1}\) 和 \(q_{\max} = 2^{b-1} - 1\),每个输出通道按最大绝对值权重缩放并量化为:
\[
\widehat{W}_{i,c} = s_c \,\operatorname{clip}\left(\operatorname{round}\left(\frac{W_{i,c}}{s_c}\right), q_{\min}, q_{\max}\right), \qquad s_c = \frac{\max_i|W_{i,c}|}{q_{\max}}.
\]
我们扫描 \(b \in \{8,7,6,5,4\}\) 并将权重反量化为浮点张量,模拟低位舍入而不改变模型架构。

#### 幅度剪枝

我们将每个目标张量中最小幅度比例为 \(p\) 的权重置零,仅将剪枝用作匹配困惑度的基线,如第3.6节所述进行校准。

### 3.3 特征稳定性度量

我们通过比较每个SAE特征在压缩前后的激活模式来量化特征稳定性。对于特征 \(j\),记 \(x_t = z_j(t;\theta_{\mathrm{FP16}})\) 和 \(y_t = z_j(t;\theta_C)\) 分别为其在全精度和压缩模型下在共享令牌集(大小为 \(N\))上的令牌位置 \(t\) 处的激活值。我们定义特征稳定性分数为皮尔逊相关系数:
\[
c_j = \frac{\sum_t (x_t - \bar{x})(y_t - \bar{y})}{\sqrt{\sum_t (x_t - \bar{x})^2 \sum_t (y_t - \bar{y})^2}},
\]
其中 \(\bar{x}\) 和 \(\bar{y}\) 是令牌位置上的均值。由于两种激活在相同的令牌位置上使用相同的冻结SAE进行评估,这种比较将压缩干预与令牌采样变异隔离开来。为避免存储完整的 \(N \times d_{\mathrm{sae}}\) 激活矩阵,我们从流式充分统计量计算相同相关性;实现细节见附录I(https://arxiv.org/html/2606.03002#A9)。

我们将存活统计量限制为在全精度模型中活跃的特征。特征 \(j\) 是活跃的,如果其FP16发放率
\[
f_j = \frac{1}{N} \sum_t \mathbf{1}\!\left[z_j(t;\theta_{\mathrm{FP16}}) > 0\right]
\]

相似文章

K-Quantization 及其对输出性能的影响

arXiv cs.CL

本文研究了不同量化级别(2位到8位)对八个大型语言模型在推理、代码理解和阅读理解任务上的性能影响,发现虽然更高精度通常带来更好的性能,但激进量化通常能保持可接受的准确率,且更大的模型展现出更强的韧性。

扩展单义性:从Claude 3 Sonnet中提取可解释特征

arXiv cs.AI

本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。