特征组合的结构不稳定性
摘要
本文提出了一个几何框架来分析稀疏自编码器中特征组合的不稳定性,揭示了非线性导致棘轮效应,从而在超过临界密度时引发组合坍塌。
arXiv:2605.05223v1 公告类型:新
摘要:稀疏自编码器(SAEs)已成为一种强大的范式,用于解耦基于Transformer架构中的特征叠加,通过激活引导实现精确控制。然而,组合引导(同时激活不同语义潜在变量)的理论基础仍未得到充分探索。主流的线性表示假设通常会忽略过完备字典中出现的非线性干扰效应。我们提出了一个用于分析特征联合不稳定性的几何框架。将激活空间建模为高维稀疏锥流形,我们在球形字典模型下推导了渐近的组合坍塌阈值,该阈值由信号锥的高斯平均宽度(统计维度)表征。我们进一步证明,在高偏置状态下,ReLU整流将微观相关性引起的方差波动转化为系统性的漂移,该漂移在组合下累积,产生与棘轮效应一致的干扰增长。我们在从CLEVR提取的结构化语义特征上验证了预测的缩放趋势,其中层次相关性加速了相对于随机基线的转变。总之,我们的结果凸显了几何约束对基于联合的引导的可扩展性的影响,并激发了超越简单线性叠加、主动管理干扰的组合机制。
查看缓存全文
缓存时间: 2026/05/08 06:37
# 特征组合的结构不稳定性 来源: https://arxiv.org/html/2605.05223 \\coltauthor\\Name 周云鹏\\Emailkc804139@student\.reading\.ac\.uk \\addrWhiteknights House, Whiteknights, Reading, RG6 6UR ###### 摘要 稀疏自编码器 (Sparse Autoencoders, SAEs) 已成为一种强大的范式,用于解耦基于 Transformer 的架构中的特征叠加(feature superposition),并能够通过激活引导(activation steering)实现精确控制。然而,组合引导(compositional steering)——即同时激活不同的语义潜在变量——的理论基础仍未得到充分探索。主流的线性表示假说(Linear Representation Hypothesis)通常忽略了过完备字典中出现的非线性干扰效应。我们提出了一个几何框架来分析特征并集(feature unions)的不稳定性。通过将激活空间建模为一个高维稀疏锥流形(sparse cone manifold),我们在球形字典模型下推导出一个渐近的组合塌缩阈值(compositional-collapse threshold),该阈值由信号锥的高斯平均宽度(统计维数)表征。我们进一步证明,在高偏置(high-bias)区域,ReLU 整流(rectification)将微观相关诱发的方差波动转化为一种系统性漂移,该漂移在组合下累积,产生与棘轮效应(ratchet effect)一致的干扰增长。我们在从 CLEVR 中提取的结构化语义特征上验证了预测的缩放趋势,其中层次相关性相对于随机基线加速了转变。总之,我们的结果凸显了对基于并集的引导进行可扩展性的几何约束,并激励了能够主动管理超出朴素线性叠加干扰的组合机制。 ###### 关键词: 稀疏表示, 机制可解释性, 相变, 组合泛化, 特征引导 ## 1 引言 可解释性领域已转向通过稀疏自编码器(SAEs)操控动态激活,SAEs 将稠密的残差流分解为可解释的特征。在最近的缩放定律和资源支持(templeton2024scaling;gao2025scaling;lieberum2024gemma\_scope)下,这种分解使得激活引导(activation steering)能够引出特定的模型行为(rimsky2024caa;zou2023representation)。这些干预通常依赖于线性表示假说(park2024linear),假设语义组合等于线性向量加法。然而,该假说的几何稳定性是脆弱的。证据表明,特征通常是多维度的(engels2025not\_linear),并且缺乏因果统一性(karvonen2025saebench;leask2025canonical)。关键的是,同时操控多个特征常常会触发**组合塌缩**(compositional collapse)——一种语义不连贯的状态(stickland2024kts)。虽然先前的工作注意到了结构化流形中的干扰(elhage2022toy;bietti2023birth),但这种不稳定性的严格几何刻画仍然缺失。我们认为,组合崩溃是高维过完备几何($m \gg n$)的一个基本结果。在这种机制下,不可避免的非正交性会导致干扰噪声(scherlis2022polysemanticity)。通过将激活空间建模为**稀疏锥流形**,我们证明 ReLU 非线性充当了一个**棘轮**(Ratchet):与线性系统中噪声相互抵消不同,整流偏置(rectification bias)会指数级放大几何干扰,使得系统对噪声呈现严格的超加性。我们的贡献有三点:(1) 我们通过信号锥的高斯平均宽度建立了一个**稳定性阈值**,证明在超过临界组合密度时,虚假激活是不可避免的;(2) 我们刻画了**棘轮机制**,为边际相关性如何放大为宏观塌缩提供了微观基础;(3) 我们提供了在 CLEVR 上的**实证验证**,证明结构化的语义相关性相对于随机基线加速了这种相变。这些发现为在静态嵌入空间中缩放朴素线性组合确立了一个硬性的几何障碍。 ## 2 预备知识 我们采用高维概率论的标准记号。令 $[m]$ 表示 $\{1,\dots,m\}$。对于向量 $v \in \mathbb{R}^n$,$\|v\|_p$ 表示其 $\ell_p$ 范数。对于矩阵 $A$,$\|A\|_{op}$ 表示其谱范数,$A_S$ 表示限制在由 $S \subset [m]$ 索引的列上的子矩阵。 ### 2.1 过完备字典模型 我们分析激活空间 $\mathbb{R}^n$,其中语义特征由一个**过完备字典** $D \in \mathbb{R}^{n \times m}$ 编码,$m = \delta n$($\delta > 1$)。 ###### 假设 1 (字典正则性) 字典 $D = [d_1, \dots, d_m]$ 满足: 1. **单位范数**:对所有 $i \in [m]$,$\|d_i\|_2 = 1$。 2. $\mu$-**不相干性**:互相干 $\mu(D) \triangleq \max_{i \neq j} |\langle d_i, d_j \rangle|$ 的缩放阶为 $O(1/\sqrt{n})$。 #### 随机基线 vs. 结构现实。 我们主要利用随机球形模型(其中 $d_i \sim \text{Unif}(\mathbb{S}^{n-1})$)来导出渐近紧致的相变界限。虽然现实世界的语义(例如 CLEVR)表现出偏离此 i.i.d. 假设的层次相关性,但我们将在第 4.5 节 (https://arxiv.org/html/2605.05223#S4.SS5) 中通过实验解决在此类结构扰动下界限的鲁棒性。 ### 2.2 稀疏锥流形 与专注于线性子空间的经典压缩感知不同,神经激活受到 ReLU 函数 $\sigma(x) = \max(0, x)$ 的约束,将信号限制在正锥的并集上。 ###### 定义 2.1 (正特征锥)。 对于支撑集 $S \subset [m]$,特征锥 $\mathcal{C}(S)$ 是 $S$ 中原子的非负线性组合的集合: $$ \mathcal{C}(S) \triangleq \left\{ \sum_{i \in S} \alpha_i d_i \mid \alpha_i > 0 \right\} \subset \text{span}(D_S). $$ ###### 定义 2.2 ($k$-稀疏流形)。 所有有效的 $k$-稀疏表示构成一个非凸流形: $$ \mathcal{M}_k \triangleq \bigcup_{S \subset [m], |S| \leq k} \mathcal{C}(S). $$ 我们的稳定性分析(第 4 节 (https://arxiv.org/html/2605.05223#S4))核心在于组合 $z = z_A + z_B$ 是保持在 $\mathcal{M}_{2k}$ 附近,还是掉入无效的环境空隙(ambient void),从而触发未定义特征。 ### 2.3 组合与干扰 我们将“引导”形式化为潜在向量的代数相加。令 $\alpha^* \in \mathbb{R}^m$ 为支撑集为 $S$ 的稀疏系数向量。预激活为 $x = D\alpha^*$。当组合由不相交集合 $S_A$ 和 $S_B$ 支撑的不同概念时,理想状态是 $x_{union} = D(\alpha_A + \alpha_B)$。物理实现会受到**鬼影特征**(Ghost Features)的干扰。令 $J = [m] \setminus (S_A \cup S_B)$ 为非激活原子的集合。组合信号在鬼影子 $d_j$($j \in J$)上的投影为: $$ \mathcal{I}_j(S_A, S_B) \triangleq \langle x_{union}, d_j \rangle = \underbrace{\langle D_{S_A} \alpha_A, d_j \rangle}_{\text{来自 A 的干扰}} + \underbrace{\langle D_{S_B} \alpha_B, d_j \rangle}_{\text{来自 B 的干扰}}. $$ 如果 $\mathcal{I}_j > \beta$(激活偏置),则发生**虚假激活**。核心的数学挑战是刻画作为稀疏度 $k = |S_A| + |S_B|$ 函数的最大干扰 $\sup_{j \in J} \mathcal{I}_j$ 的分布。符号总结参见附录 A.1 (https://arxiv.org/html/2605.05223#A1.SS1) 的表 1 (https://arxiv.org/html/2605.05223#A1.T1)。 ## 3 微观分析:成对纠缠的几何 在本节中,我们分析两个不同语义因子之间的局部交互。在建立宏观相变(第 4 节 (https://arxiv.org/html/2605.05223#S4))之前,我们必须先量化两个稀疏锥的并集产生干扰的几何机制。 考虑两个不相交的索引集 $S_A, S_B \subset [m]$,基数分别为 $k_A, k_B \ll n$。令 $\mathcal{U}_A = \text{span}(D_{S_A})$ 和 $\mathcal{U}_B = \text{span}(D_{S_B})$ 为活跃原子张成的子空间。组合引导的根本挑战在于,虽然 $S_A \cap S_B = \emptyset$,但它们的嵌入子空间并不正交:对于过完备字典,$\mathcal{U}_A \perp \mathcal{U}_B$ 一般不成立。 ### 3.1 主角与子空间对齐 为了严格衡量两个概念之间的几何对抗性,我们引入**主角**(principal angles)的概念。$\mathcal{U}_A$ 与 $\mathcal{U}_B$ 之间的对齐决定了最坏情况下的干扰。 ###### 定义 3.1 (交互奇异值)。 令 $Q_A$ 和 $Q_B$ 分别为 $\mathcal{U}_A$ 和 $\mathcal{U}_B$ 的标准正交基。交互奇异值 $\sigma_1 \ge \sigma_2 \ge \dots \ge \sigma_{\min(k_A, k_B)}$ 是交叉投影矩阵 $M_{AB} = Q_A^T Q_B$ 的奇异值。最小主角 $\theta_{\min}$ 满足 $\cos(\theta_{\min}) = \sigma_1$。如果 $\sigma_1 \approx 1$,则子空间近乎平行,使得解缠问题病态。然而,在高维随机字典中,$\sigma_1$ 通常是有界的。危险并非来自于子空间相互塌缩,而是来自它们在**互补**字典原子上的联合投影。 ### 3.2 泄漏算子与方差分解 我们定义泄漏算子 $\mathcal{L}_{AB}: \mathcal{U}_A \times \mathcal{U}_B \to \mathbb{R}^{m - (k_A + k_B)}$ 来量化信号泄漏到鬼影特征 $J = [m] \setminus (S_A \cup S_B)$ 中的程度。对于任意组合引导向量 $z = D\alpha_A + D\alpha_B$,鬼影子 $d_j$($j \in J$)上的预激活由内积 $\langle z, d_j \rangle$ 定义。为了刻画结构不稳定性,我们分析该干扰的二阶矩。令 $G = D^T D$ 为字典的格拉姆矩阵。鬼影特征 $j$ 处的干扰能量不仅取决于单个原子的相干性,还取决于活跃集合 $S_A$ 与 $S_B$ 之间的集体对齐。 ###### 引理 3.2 (球形系综下的方差分解)。 令 $\alpha_A, \alpha_B$ 为固定的单位范数系数向量。假设字典原子 $d_j$ 独立地从 $\text{Unif}(\mathbb{S}^{n-1})$ 中抽取。则 $z = D\alpha_A + D\alpha_B$ 在通用鬼影子 $d_j \notin S_A \cup S_B$ 上的投影能量(对 $D$ 的随机性取期望)满足: $$ \mathbb{E}_D[\langle z, d_j \rangle^2] = \frac{1}{n}(\|\alpha_A\|^2 + \|\alpha_B\|^2) + 2\mu_{eff} \rho(S_A, S_B) + O(n^{-2}) \quad (1) $$ 其中 $\mu_{eff} = \mathbb{E}[|\langle d_i, d_j \rangle|] \sim n^{-1/2}$ 是期望相干性,$\rho(S_A, S_B) = \alpha_A^\top (D_{S_A}^\top D_{S_B}) \alpha_B$ 捕捉子空间对齐。高阶残差 $R(\alpha)$ 相对于信号项以 $O(1/n)$ 的速度消失。 项 $2\mu\rho$ 是组合失败的几何催化剂。在诸如 CLEVR 的结构化领域中,颜色(例如红色)和形状(例如立方体)等属性是非正交的,$\rho$ 严格为正。正如我们接下来展示的,该项不仅仅是添加线性噪声;它充当了整流棘轮机制的触发器。 ### 3.3 整流棘轮:非线性放大 这项工作的一个关键洞见是,线性干扰分析对于神经回路是不充分的。ReLU 非线性 $\sigma(x) = \max(0, x)$ 打破了干扰分布的对称性,阻止了负相关抵消正泄漏。 我们假设特征向量 $\{d_j\}$ 是从单位球面 $\mathbb{S}^{n-1}$ 上的均匀分布中 i.i.d. 采样的。 备注。 虽然我们为了分析易处理性而假设随机相对方向,但我们的结果在压缩感知文献中常见的温和相干性条件($\mu$-独立性)下依然成立(donoho2009observed),其中测度集中确保结构化字典在高维中表现出类似随机的性质。 ###### 定理 3.3 (整流漂移与凸性)。 令预激活干扰为 $X \sim \mathcal{N}(0, v(\rho))$。为确保物理有效性,我们将有效方差定义为整流量 $v(\rho) \triangleq (\sigma_0^2 + 2\mu\rho)_+$,其中 $(x)_+ = \max(0, x)$。则整流漂移由下式给出: $$ \eta(\rho) := \mathbb{E}[\sigma(X)] = \frac{\sqrt{(\sigma_0^2 + 2\mu\rho)_+}}{\sqrt{2\pi}}. \quad (2) $$ 这表明对噪声具有严格的超加性:几何方差波动与各向同性基线相比,严格增加了期望干扰能量。 备注 (漂移 vs. 尾部概率)。 重要的是,整流不改变正阈值的尾部超越概率:对于任何 $\beta > 0$,$\mathbb{P}(\sigma(X) > \beta) = \mathbb{P}(X > \beta)$。因此,棘轮效应并非尾部方差的局部放大。相反,其机制是将对称的散布转化为**系统性平均漂移** $\eta > 0$。虽然每个特征的漂移是线性的,但其在组合上的累积效应是几何性的:对于 $k$ 个活跃特征,累积的漂移将干扰锥 $\mathcal{C}_{ghost}$ 的中心移向信号。这种对锥的统计维数 $\Phi$ 的有效扩展线性地消耗了安全裕度 $\Delta_{gap}$,而由于球面上的测度集中,这导致安全概率指数级衰减。因此,线性“棘轮”充当了几何相变的燃料。 #### 棘轮效应的解释。 式 (3) 揭示了字典几何与表示稳定性之间的非线性耦合。互相关 $\rho$ 作为敏感性乘数进入指数。因此,即使 $S_A$ 与 $S_B$ 之间的对齐有微小增加(如 CLEVR 属性组合中所示),也会在膨胀的方差代理下导致鬼影特征**预激活**超越的概率呈指数级上升。关键的是,整流不改变正阈值的超越概率,但它将对称干扰转化为单边漂移:正偏差贡献于 $\mathbb{E}[\sigma(X)]$,而负偏差则被抑制。这种不对称性是**棘轮**的微观基础,它将微小的几何干扰累积成宏观组合塌缩。相似文章
稀疏自编码器中特征饥饿的几何不稳定性
本文将稀疏自编码器中的特征饥饿识别为一种几何不稳定性,并提出自适应弹性网络 SAE(AEN-SAE)来在不依赖启发式方法的情况下缓解该问题。
稀疏自编码器表示中的特征竞争:大语言模型中不确定性驱动的特征竞争机制研究
本研究论文在大语言模型中引入了稀疏自编码器表示中的“特征竞争”概念,将其作为不确定性的机制性特征。利用 Gemma-2-2B 模型,研究表明,负相关的特征对将不确定性定位到特定层级,并对模型输出产生因果影响。
不稳定特征,可重现子空间:理解稀疏自编码器中的种子依赖性
本文研究稀疏自编码器中的种子依赖性,发现稳定特征携带大部分预测信号,而不稳定特征反映了可重现的低维子空间。
稀疏自编码器中概念学习与神经元解释的几何视角
本文提出了一个统一的几何框架,用于理解稀疏自编码器中的概念学习和神经元解释,将概念形式化为集合,并定义了检测、分离和近似。它提供了误差界、容量约束,并与形式概念分析建立了联系,同时在合成数据上进行了实验。
组合坍缩:稳定的事实知识并不蕴含组合推理
本文介绍了'组合坍缩'这一现象,即语言模型虽然拥有稳定的事实知识,但仍无法将这些知识组合成正确的多跳推理,并提出了一个双门协议,以将组合失败与原子知识不稳定性分离开来。