特征抽奖？概念涌现的分岔理论

arXiv cs.LG 2026/05/26 04:00 论文

摘要

本文提出了一种表征动力学的分岔理论，用于检测神经网络在训练过程中何时获得结构化表征。该理论利用对GMM探针的黑塞矩阵分析，得到的比值β/β_c作为一种无标签的相位坐标，能够预测可用结构的出现，并在训练早期预判稀疏自编码器中的特征可解释性。

arXiv:2605.24057v1 公告类型：新摘要：神经网络在训练过程中的特定时刻会获得结构化表征，然而识别这些转变通常依赖于事后且基于标签的指标。我们引入了一种表征动力学的分岔理论，以实时检测这些时刻。通过分析附着在演化编码器上的被动GMM探针，我们展示了结构的出现对应于由损失黑塞矩阵驱动的超临界叉形分岔。该系统表现出一个理论上可预测的零点穿越（$\beta_c$），与网络当前状态（$\beta$）相比，产生了一个动态比值$\beta(t)/\beta_c(t)$：一个通用的、无标签的表征动力学相位坐标，完全从隐藏状态计算得出。我们在不同设置下通过四种不同的转变区间经验验证了该坐标的预测能力：语言模型上的稀疏自编码器（Pythia）、自监督学习（CIFAR）以及模算术中的顿悟（grokking）。关键的是，在有限耗散下，宏观对称性破缺可能滞后于初始零点穿越数个数量级，这为顿悟中观察到的延迟逃逸提供了严格的动力学解释。在微观层面，分岔创造了一个共享的不稳定子空间，迫使集体对称性破缺。我们将其称为稀疏自编码器训练中的“特征抽奖”：一个特征的最终可解释性在训练早期就可被显著预测。仅在训练完成5%时，早期原子纯度就能稳健地预测最终收敛纯度，其中前十百分位的早期原子在收敛时实现了超过基线12倍的纯度。除了解释概念涌现，$\beta/\beta_c$还提供了训练健康的实用早期预警指标，在下游指标做出反应之前就能检测到可用结构的出现、特征身份的结晶以及表征坍缩的时期。

查看原文

查看缓存全文

缓存时间: 2026/05/26 08:59

# 特征彩票？概念涌现的分岔理论 来源：https://arxiv.org/html/2605.24057 ###### 摘要 神经网络在训练过程中特定时刻会获得结构化表示，然而识别这些转变通常依赖于回顾性、标签相关的指标。我们引入了一种表示动力学的分岔理论，用于实时检测这些时刻。通过分析连接到演化编码器的被动高斯混合模型（GMM）探针，我们展示了结构的出现可被识别为由损失黑塞矩阵驱动的超临界叉形分岔。系统表现出一个理论上可预测的零点穿越（\( \beta_c \)），将其与网络当前状态（\( \beta \)）比较，得出动态比值 \( \beta(t) / \beta_c(t) \)。该比值作为表示动力学的通用、无标签相位坐标，完全可从隐状态计算得出。我们在多种设置下实证验证了该坐标预测的四种不同转变区间，包括语言模型（Pythia）上的SAE、自监督学习（CIFAR）以及grokking（模算术）。关键在于，在有限耗散下，宏观对称性破缺可能滞后于初始零点穿越数个数量级：这为grokking中观察到的延迟逃逸提供了严格的动力学解释。在微观层面，该理论预测分岔创建了一个共享的不稳定子空间，迫使集体对称性破缺。我们将其称为SAE训练中的*特征彩票*：一个特征的最终可解释性在很早阶段就变得可预测。仅经过训练5%的步数，早期原子纯度就能稳健地预测最终收敛纯度，其中早期原子的顶层十分位在训练结束时达到基线纯度的12倍以上。除了解释概念涌现外，\( \beta / \beta_c \) 还提供了一个非常实用的工具。它可作为训练健康的早期预警指标：在下游指标反应之前，检测可用结构的出现、特征身份的结晶以及表示崩溃的开始。交互演示：https://fumingyang-felix.github.io/feature-lottery-demo/ ## 1 引言 现代网络不仅仅拟合标签或重建输入；在训练过程中，其内部状态重组为离散的、可复用的方向，这些方向行为类似于概念。然而，我们通常只在事后才注意到这种重组：通过使用标签进行探测、通过检查下游准确性、或通过对完全训练好的模型进行机制分析。所缺少的是一个*无标签的动力学信号*，用于指示此类概念结构何时首次变得可用；这个量（在训练过程中实时观察）告诉我们网络是否及何时刚刚获得了可用的内部表示，并且理想情况下还能指示表示的*哪些*部分即将变得有意义。 #### 我们的角度。 我们提供这样一个信号，源自对单一黑塞矩阵的分析。将被动\( K \)原型各向同性高斯混合（GMM）头（共享学习精度\( \beta \)）附加到给定编码器表示的输出\( z = \mathrm{enc}(x) \)上，并在*对称坍缩状态* \( \mu_1 = \cdots = \mu_K = \bar{z} \)下分析其负对数似然的黑塞矩阵。分析（第3节）得出临界精度 \[ \boxed{ \beta_c = \frac{1}{\lambda_{\max}(\mathrm{Cov}(z))} } \qquad (1) \] 此时损失黑塞矩阵的最低特征值穿越零点；在\( \beta_c \)之上，原型沿\( \mathrm{Cov}(z) \)的主特征向量发生叉形分岔。我们将此黑塞-叉形事件作为概念涌现的*操作性*定义：即编码器表示首次允许类别对齐的\( K \)原型分解的时刻。无标签指标为\( \beta(t) / \beta_c(t) \)，可仅从编码器的隐状态和GMM探针计算得出。当编码器自身在学习时，\( \beta_c(t) \)变为内生的，我们证明\( \beta(t) \)和\( \beta_c(t) \)必然在某个有限训练时刻交叉（命题1）。一个微妙之处（在注记1中精确阐述）在于，穿越事件标志着对称状态变得*不稳定*的时刻，而非对称破缺状态变得*宏观可观测*的时刻。两者之间的滞后由编码器的耗散控制，范围可从基本为零（在训练良好的SSL中）到数千步（在grokking中）。 #### 最尖锐的预测是逐原子层面的。 在穿越事件中，\( \beta = \beta_c \)处的不稳定子空间由所有\( K-1 \)个反对称模态共享（附录A.2）。因此，分岔是一个*集体*事件，具有*逐原子特征*：每个原子必须从共同的非稳定流形中选择特定方向，其选择由初始化噪声和叉形范式中的三次项驱动。这种逐原子预测在经验上非常清晰。在冻结的Pythia-160M第6层上的SAE训练中，逐原子的词性（POS）纯度在分岔前处于噪声基底，并在分岔开始时获得预测能力；根据第1,000步（训练的5%）的POS纯度对原子进行排序，已经能恢复出顶部十分位的原子，其收敛纯度为均匀随机基线的12倍（第5节）。我们称此为SAE的*特征彩票*，是分岔理论最尖锐且最出人意料的实证结果；它是Frankle和Carbin (2019)的“彩票假设”在SAE层面的类比，其中抽奖事件被明确识别为训练期间的第一个相变。 #### 贡献。 1. **理论：内生的临界点与后临界亚稳定性。** 一个黑塞-叉形预测，用于判断给定编码器表示何时首次允许\( K \)原型分解，通过编码器输出上的被动GMM探针获得，并对内生临界点给出存在性证明（命题1；在*编码器最终将潜在分布扩展到足够程度以使GMM能解析簇的条件*下，\( \beta = \beta_c \)的穿越发生在有限时间），以及有限耗散下后临界亚稳定性的独立预测（注记1）。两者相对于Rose等人(1990)的静态软\( K \)-均值临界性都是新的：Rose给出冻结数据集上的临界温度；我们给出当\( \beta_c(t) \)与编码器共同演化时的动态穿越定理，并识别出静态分析无法展示的后临界亚稳定区间。 2. **理论最尖锐的实证结果：训练5%时的SAE特征彩票。** 在穿越事件中，不稳定子空间由所有\( K-1 \)个反对称模态共享，因此原子必须在分岔期间从共同流形中选择方向。我们在冻结的语言模型激活上的SAE训练中验证了这一点（第5节）：逐原子POS纯度在出现前处于噪声基底（\( \rho_{\mathrm{id}} \approx 0.03 \)），到第1,000步（训练的5%）时，身份匹配的\( \rho_{\mathrm{id}} = +0.41 \pm 0.04 \)（3个种子，所有 \( p < 10^{-80} \)）。在5%时排名的顶部十分位原子，其收敛POS纯度为\( 0.82 \pm 0.03 \)，是均匀随机基线0.067的\( 12.3 \pm 0.4 \)倍。该效应在软L1和架构top-\( K \) SAE上以及\( K \in \{256, \dots, 8192\} \)范围内（\( \rho_{\mathrm{id}} \in [0.26, 0.41] \)）均可复现。这是Frankle和Carbin (2019)的“彩票假设”在原子层面、出现后的类比。 3. **分岔弧的经验普遍性。** 预测轨迹在\( (\log(\beta / \beta_c), \log \mathrm{NC1}) \)中由三个二元运动学轴控制：初始亚/超临界性、出现后\( \beta(t) \)与\( \beta_c(t) \)之间的竞赛、以及耗散率（第4.3节，附录I）。这些轴预测哪些运动学区间可被哪些特征学习方法访问。我们验证了标准流程中出现的四个区间：全V（冻结Pythia第6层上的SAE）、折叠（DINO/SimCLR在CIFAR-10/100上，幅度由数据复杂度控制）、延迟逃逸（模算术上的grokking，逃逸时间\( \tau_{\mathrm{esc}} \propto \mathrm{WD}^{-1.23} \)在六个WD水平上单调变化，且在WD=0时0/3逃逸），以及无弧（旋转预测控制）。 4. **K扫描：彩票是\( K \)稳定的，POS纯度帕累托是\( K \)单调但\( K \)混杂的。** 在固定的3% top-\( K \)稀疏度下，彩票的\( \rho_{\mathrm{id}} \)在\( K \in \{256, \dots, 8192\} \)范围内稳定（范围\( [+0.26, +0.41] \)）。逐原子POS纯度随\( K \)从0.725单调下降至0.370（表4），而重建MSE则朝相反方向移动（0.11 → 0.015）。由于POS只有15个类别，这种纯度随\( K \)变化的趋势部分上是结构性的：小\( K \)的原子各自对应更粗略的标记-簇划分，更容易与15路POS划分对齐。因此我们*不*推荐仅基于POS纯度选择小\( K \)；需要\( K \)无偏的可解释性度量（例如因果中介或LLM作为评判）才能做出实质性建议（第5.4节）。 5. **无标签的训练诊断工具。** \( \beta / \beta_c \) 仅从隐状态即可识别编码器的当前行为阶段，远早于下游指标做出反应。在grokking中，第100步的指标已将轨迹置于第二幕：大约在`test_acc`变化前8,400步。在从头训练的DINO出现崩溃模态时（第6.1节），\( \beta / \beta_c \) 在渐进模式下领先簇准确性8个周期；在训练中干预时（第6.2节），它在一个批次内做出响应，而训练损失仍处于噪声范围内。 ## 2 相关工作 #### 概念涌现与机制可解释性。 机制可解释性领域日益增长的工作研究已训练模型内部计算如何实现特定“概念”。Nanda等人(2023)展示grok后模加法的解决方案是一种傅里叶乘法算法，分布在网络的嵌入、注意力和MLP层中；稀疏自编码器（SAE）在冻结语言模型激活上（Bricken等人，2023；Gao等人，2025；Templeton等人，2024）提取特征空间中的可解释方向。这些工作在已训练模型上*事后*识别概念：在训练收敛后评估特征的可解释性，典型假设是训练时间越长特征越好。我们的框架在两个维度上与之互补。首先，我们提供一种无标签的*动力学*信号，指示此类结构在训练期间何时首次变得可用（第4节）。其次，我们展示在SAE中，分岔开始是一个逐原子的分配事件，其结果提前一万九千个训练步预测原子层面的可解释性（第5节）。这将SAE特征涌现重新定义为一种结构化彩票，而非逐步精炼。 #### 神经坍缩。 神经坍缩文献（Papyan等人，2020）及后续的无约束特征模型分析（Mixon等人，2022；Tirer和Bruna，2022；Zhou等人，2022；Súkeník等人，2024）刻画了有监督分类的静态终端阶段几何。Wang和Palmer (2023)通过信息瓶颈论证在监督对比学习中恢复了类似结构。这些分析描述终点，而非编码器达到该终点的动力学；我们的框架提供了缺失的动力学，并在无标签情况下预测概念涌现的时间。 #### 确定性退火与率失真聚类。 Rose等人(1990)通过外部退火T获得了软K均值的临界温度 \( T_c = 2 \lambda_{\max}(\Sigma) \)。在我们的约定中 \( \beta = 2/T \)，这是外部\( \beta \)极限的分析。此处的新颖之处在于\( \beta \)是内生的，且\( \beta_c(t) \)随编码器移动。 #### 自监督坍缩。 Jing等人(2022)；Hua等人(2021)分析对比和非对比自监督方法中的维度坍缩。Caron等人(2021)引入DINO，特别使用中心化和锐化正则化器来防止坍缩。我们的诊断实验（第6节）将DINO崩溃模态作为受控测试案例。 #### Grokking与涌现。 Power等人(2022)发现模算术上的小型Transformer表现出长时间的记忆平台期，随后突然泛化转变；Nanda等人(2023)机制性地识别了负责的网络内DFT电路。这种平台期-突然转变的模式让人联想到Saxe等人(2014)在深度线性网络中表征的鞍点到鞍点动力学，其中学习通过一系列损失地形鞍点进行，鞍点间有长平台期。我们的框架为这一图像赋予了具体的表示-几何内容：平台期是后临界亚稳定区间（\( \beta > \beta_c \) 但 \( \varepsilon \) 仍微观；注记1），耗散强度设定逃逸时间。我们在第4.2节中重新审视grokking，作为我们框架中后临界亚稳定性最清晰的实证实例。 #### 深度学习中的相变。 Wang和Ziyin (2022)分析线性潜变量模型中的后验坍缩，Ziyin和Ueda (2023)在统计力学框架下证明深度线性网络中的一阶和二阶相变。两者都将坍缩类现象与正则化学习中的相变联系起来。我们共享这一视角，并贡献了一个闭式黑塞基预测器，用于无监督设置中相变点。

特征抽奖？概念涌现的分岔理论

相似文章

稀疏自编码器表示中的特征竞争：大语言模型中不确定性驱动的特征竞争机制研究

通过相变的涌现：机制景观与复杂系统中的通用收敛

分叉附近的状态空间NTK坍缩

Hoeffding Concept Bottleneck Models 及其在高空图像中的应用

特征排斥与谱锁定：两层网络 Grokking 现象的实证研究

提交意见反馈