学习一致性表征:一种拓扑可解释性方法
摘要
本文介绍了一致性(coherence)这一几何约束,受大脑中网格细胞和头朝向细胞的启发。一致性确保特征响应数据流形上的几何连通区域,从而提升可解释性;作者提出了一个可微分的目标函数(Coh),并在合成数据、旋转MNIST和BERT词元嵌入上进行了验证。
arXiv:2606.02841v1 公告类型:新
摘要:深度神经网络学习到的表征中,单个特征往往缺乏可解释的意义;一个神经元可能对分散、不相关的输入激活。我们引入一致性(coherence)这一几何性质,受大脑中神经编码的启发,其中网格细胞和头朝向细胞等神经元响应状态空间中的连续区域。一个非负矩阵被称为一致的,如果每一行(样本)关注几何聚类后的列(特征),反之亦然,并且每个样本都有某个特征能很好地描述它,每个特征都被某个样本需要。我们证明,一致矩阵在样本和特征的Vietoris-Rips过滤之间诱导有界交织,确保两个空间共享兼容的拓扑结构。这种几何约束有助于可解释性。例如,如果数据位于一个圆上,一致特征必须将该圆分割成连续的弧段。我们提出了Coh,一个基于Fr\'echet方差的可微目标函数,在训练中强制执行一致性。与稀疏性(限制特征激活的样本数量)不同,一致性限制的是哪些样本被激活,要求几何连通性而非仅仅稀有性。这不仅产生可解释的特征,还产生一个可解释的特征空间。我们在自动编码器中使用合成数据和旋转MNIST数据集验证了Coh,并在BERT的词元嵌入中使用语言数据进行了验证。
查看缓存全文
缓存时间: 2026/06/03 09:40
# 学习连贯表示:一种可解释性的拓扑方法
来源:https://arxiv.org/html/2606.02841
Melvin Vaupel, Valdemar Kargård Olsen, Erik Hermansen, Benjamin A. Dunn
###### 摘要
深度神经网络学习的表示中,单个特征往往缺乏可解释的意义;单个神经元可能对分散、不相关的输入做出反应。我们引入**连贯性**这一受大脑神经编码启发的几何性质——例如网格细胞和朝向细胞会对状态空间中的连续区域做出响应。如果非负矩阵的每一行(样本)都关注几何上聚集的列(特征),反之亦然,并且每个样本都能被某个特征很好地描述,同时每个特征都被某个样本所需要,则该矩阵是**连贯的**。我们证明,连贯矩阵会在样本和特征的 Vietoris-Rips 过滤之间诱导出有界的交织,从而保证两个空间共享兼容的拓扑结构。这一几何约束有助于可解释性。例如,若数据位于圆环上,则连贯特征必须将该圆环分割成连续的弧段。我们引入 `Coh`,一个基于 Fréchet 方差的可微目标函数,可在训练过程中强制实现连贯性。与稀疏性(仅限制特征激活的样本数量)不同,连贯性约束的是**哪些**样本被激活,要求几何连通性而不仅仅是稀有性。这不仅能产生可解释的特征,还能产生可解释的特征空间。我们在合成数据和旋转 MNIST 数据集的自编码器以及使用语言数据的 BERT 词元嵌入中验证了 `Coh` 的有效性。
## 1 引言
在分类任务上训练的深度神经网络(DNN)会逐步变换数据表示,使得类别流形在几何上变得可分离(Cohen 等,2020)。这一性质——同一类别的样本在潜在空间中聚集在一起——自然地源于分类目标,也是迁移学习和特征可视化成功的基础。然而,这并未说明特征本身:单个潜在维度可能对分散、不连贯的数据子集做出反应(Elhage 等,2022),从而限制了可解释性。对于自编码器等无监督方法,情况更糟。在没有类别标签引导分离的情况下,网络可能学习到语义相关的样本分散在潜在空间中、且单个特征缺乏任何连贯意义的表示。稀疏正则化(L1)鼓励特征在少量样本上激活,但并不能保证这些样本在几何上相关——稀疏特征可能激活数据流形上不相连的区域。
引人注目的是,生物神经回路在没有显式监督的情况下实现了可解释的表示。内嗅皮层的网格细胞以周期性的放电场覆盖物理空间(Hafting 等,2005; Gardner 等,2022)。朝向细胞则对特定方向做出反应,每个神经元覆盖一个连续的角区间(Taube 等,1990; Rybakken 等,2019)。这些神经编码表现出局部性:每个神经元的活动集中在底层状态空间的一个连贯区域。正是这种局部性使得这些细胞具有可解释性——人们可以根据同时发生的神经活动读出动物的位置或朝向,因为状态与响应之间的映射是几何上有组织的。这一观察表明,局部性不仅仅是进化优化的副产品,更是可解释神经编码的设计原则。
我们能否将这一原则形式化,并将其施加于人工神经网络?我们主要关注无监督设置——自编码器瓶颈层和 transformer 词元嵌入——在这些设置中,连贯性正则化必须在没有标签指导的情况下诱导出结构。在有监督分类器中,交叉熵损失自然压缩了类内变异,留给连贯性保留的结构很少,因而由此产生的拓扑近似为离散的。因此,将本工作中开发的方法应用于需要关注类内结构的有监督设置,是未来工作的方向。
除了对大脑神经活动的观察外,本工作还深受 Dowker 对偶性(Dowker, 1952)的启发,该对偶性是二元矩阵行与列拓扑之间的著名对偶。我们将我们的工作视为一种几何类比——我们并非免费获得 Dowker 对偶,而是必须定义一类矩阵,使得如附录 C 中定义的几何 Vietoris-Rips 行过滤和列过滤能够类似地交织。
(图 1 说明:给定一个具有非负激活函数的自编码器,我们可以将编码后的潜在空间视为一个矩阵 M,其行是样本,列是特征。大多数情况下,样本和特征的*拓扑*截然不同。我们通过创建由潜在样本和潜在特征诱导的过滤单纯复形之间的显式交织(利用重心映射 φ 和 ψ)来正则化这些空间使其拓扑相似。我们将矩阵定义为 ε-*局部*意味着每个样本 r_i 在 ε^{1/2} 距离内被映射到某个特征 c_k。例如,它们在所有行的权重空间中的重心像位置显示列 c_1 比列 c_2 更局部。此外,我们的 ε-*覆盖*定义意味着在任意样本 r_k 周围存在某个特征,其重心像在 ε^{1/2} 距离内接近该样本。当矩阵 M(潜在空间)同时具有这两个性质时,我们称其为 ε-*连贯*,并且结合重心映射的非扩张假设,这保证了潜在样本和潜在特征在拓扑上 ε^{1/2}-相似。)
### 1.1 贡献
1. **连贯性的定义**。我们将非负矩阵定义为 *ε-连贯*,当它既是 *ε-局部*(每行关注一组几何上聚集的列,反之亦然)又是 *ε-覆盖*(每一行都被某个列的重心所匹配,反之亦然)。我们证明连贯矩阵会在样本和特征的 Vietoris–Rips 过滤之间诱导出有界的交织,因此两个空间共享兼容的拓扑结构。
2. **可微目标函数**。我们推导出 `Coh`,一个基于 Fréchet 方差的可微损失函数,可添加到任何具有非负激活的架构中。其两项分别惩罚上述定义中的局部性量和覆盖性量,驱动表示向 ε-连贯发展。
3. **经验验证**。我们在不同的设置中展示了 `Coh` 能够产生可解释的特征空间:在合成数据和旋转 MNIST 的自编码器中恢复期望的拓扑,在 BERT 词元嵌入中生成与人类可读类别(例如年份、亲属关系词、地名,以及计量单位、犹豫副词、方向介词等)对齐的特征,而仅靠非负性几乎无法得到任何可解释特征。
我们的工作连接了拓扑数据分析、神经科学和表示学习,为学习可解释的潜在空间提供了理论基础和一个实用的目标函数。
### 1.2 相关工作
**可解释性**。随着模型规模的扩大,理解学习到的表示对于安全性和调试变得至关重要(Olah 等,2020)。如果一个表示中单个特征对应人类可理解的概念,则该表示是可解释的。Cohen 等(2020)表明分类训练逐渐解开类别流形,使其在后几层变得线性可分;Mamou 等(2020)在语言模型中观察到类似的分离。这些结果刻画了*样本*的几何性质,但并未解决单个特征是否可解释的问题。稀疏编码(Olshausen 和 Field,1996)以及最近的用于机制可解释性的稀疏自编码器(Bricken 等,2023;Cunningham 等,2024)通过鼓励特征较少激活来减少多语义性。然而,稀疏性约束的是*多少*样本被特征激活,而不是*哪些*——稀疏特征可能激活几何上分散的输入。连贯性则明确要求活跃样本在空间上聚集,从而提供特征与数据结构对齐的几何保证。
**几何深度学习**。几何深度学习(Bronstein 等,2021)将已知对称性(平移、旋转、置换)融入网络架构,减小假设空间并提高泛化能力。我们的方法是互补的:我们不是从架构上编码对称性,而是正则化学习到的表示以展现几何结构,特别要求特征空间和样本空间共享兼容的拓扑。
**拓扑自编码器**。拓扑数据分析(TDA)为刻画数据形状提供了稳健的工具(Carlsson,2009),其稳定性结果确保数据的小扰动会导致拓扑描述符的小变化(Chazal 等,2009)。已有若干工作使用 TDA 工具正则化神经网络,例如 Moore 等(2020)、Hofer 等(2019)、Hu 等(2019)。这些方法旨在*保留*输入拓扑于潜在表示中,或赋予输出空间目标拓扑。我们的目标有本质不同:我们不保留拓扑,而是在潜在样本和潜在特征之间*镜像*拓扑。另一个不同点是我们在单纯过滤的层级上通过显式的交织映射操作,从而不需要选择同调次数,而前述方法受限于此。
**神经编码**。我们的工作从神经科学中汲取灵感,其中网格细胞(Hafting 等,2005)和朝向细胞(Taube 等,1990)表现出局部感受野。这些局部野允许我们将数据矩阵的每一行或每一列视为一个“点”,揭示数据形成的拓扑空间,正如对网格细胞(Gardner 等,2022)和朝向细胞(Rybakken 等,2019)的研究所示。
**相似性保持网络**。Sengupta 等(2018)表明非负的相似性保持目标能够产生覆盖输入流形的局部感受野。我们的工作不同之处在于要求双向连贯性:特征空间必须共享样本空间的拓扑。这提供了显式的交织保证,而不仅仅是刻画感受野的形状。
## 2 背景
我们简要建立符号,并向附录 C 提供完整定义。给定度量空间中的有限集合 P,*Vietoris-Rips 过滤* \{VR_t(P)\}_{t≥0} 是一个嵌套的单纯复形族,捕捉 P 在不同尺度下的拓扑。两个过滤被称为 *δ-交织*,如果存在它们之间的映射,该映射在尺度上允许 δ 的偏移后,近似与包含映射交换(见定义 C.6)。*交织距离* 界定了持久图之间的瓶颈距离,确保相似的同调特征。直观上,两个 δ-交织的空间是“拓扑上 δ-相似”的,即它们具有相同的大尺度形状,仅在低于 δ 的尺度上不同。
(图 2 说明:从圆形状态空间导出的连贯矩阵与非连贯矩阵。左:连贯性 ε=0.18。右:非连贯 ε=1.46。在第一行和第三行,我们展示了行和列的 PCA 投影,按列或行的激活着色。在第二行和第四行,我们展示了行和列的持久图,突出显示最持久的 H_1。注意只有连贯矩阵在行和列中均表现出匹配的圆形拓扑。)
## 3 连贯矩阵
本节的目标是引入连贯矩阵的概念,并展示它如何在矩阵 M 的行和列关联的度量空间之间诱导自然的交织。行向量和列向量之间的成对距离在非方矩阵中可能位于截然不同的尺度上。在比较它们诱导的拓扑时,我们希望不受这种差异的影响。为实现这一目的,我们通过按成对距离均值的倒数缩放来对行和列度量进行归一化。以下许多结果可以针对任意 L^p 范数进行,但我们将采用欧几里得范数,因为这使得重心映射是线性的,具有简单、闭式且易于训练计算的形式。我们注意到,在高维空间中欧几里得范数的选择可能效果不佳,但它是我们方法的自然选择。
在本节中,我们假设有一个非负矩阵 M ∈ R_+^{m×n},且没有零行或零列。我们将
R = {r_1,...,r_m} ⊂ R^n 和 C = {c_1,...,c_n} ⊂ R^m
分别记为矩阵 M 的行集和列集。我们希望矩阵中的非负行和列分别像列和行上的概率分布一样作用,因此我们定义**归一化核**的概念。
###### 定义 3.1。令 σ_R: R_+^n \ {0} → Δ^{n-1} 和 σ_C: R^m \ {0} → Δ^{m-1} 为连续函数,将非零向量映射到概率向量。我们称 σ_R 和 σ_C 为*归一化核*。
设 M ∈ R_+^{m×n}。我们定义*广义权重空间*如下:
1. *行权重空间* W 由矩阵 W 定义,其中第 i 行为:W_{i,·} = w^{(i)} = σ_R(r_i)。
2. *列权重空间* V 由矩阵 V 定义,其中第 j 行为:V_{j,·} = v^{(j)} = σ_C(c_j)。
###### 例 3.2。归一化核的例子包括 L1 归一化、softmax 和平方 L1 归一化(我们在实验中使用后者)。
我们现在利用 *Fréchet 均值*在行权重空间和列权重空间之间定义自然的地图。
###### 定义 3.3。设 A ⊂ R^n 为一组向量。我们用 conv(A) 表示相似文章
揭示过度完备推理轨迹中最小核心的表征几何
本文介绍了过度完备推理轨迹中'最小核心'的概念,表明平均可移除46%的步骤同时保留最终答案,并且最小核心改善了轨迹分离并降低了内在维度。
大语言模型在上下文学习中重组表征几何结构
本文研究了大语言模型在上下文学习过程中如何重组表征几何结构,表明上下文学习性能与任务的几何结构相关,且成功的上下文学习涉及提高表征的可分离性。
稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑
本文使用稀疏自编码器将大语言模型分解为可解释的特征,并表明语义特征能够解释大脑与皮层语义拓扑的对齐,且该结论在英语、中文和法语中均具有泛化性。
加权对比学习的统一几何框架
本文提出了一个统一的几何框架,证明加权InfoNCE目标可以解释为距离几何问题,从而精确刻画了有监督和弱监督对比学习方法的最优嵌入,并揭示了这些嵌入何时在几何上可实现、退化或不一致。
拓扑增强的大语言模型对齐:轨迹拓扑损失与拓扑偏好优化
本文介绍了一种用于大语言模型的拓扑增强对齐框架,利用基于持续同调的轨迹拓扑损失和拓扑偏好优化,对隐藏空间中的语义轨迹进行正则化。