SAEs 能否捕捉神经几何?(6分钟阅读)

TLDR AI 论文

摘要

本文探讨了稀疏自动编码器(SAEs)如何捕捉弯曲的神经几何,揭示了SAE特征表示流形的三种不同方式,并提出了一个无监督流程来揭示神经表征中的几何结构。

稀疏自动编码器(SAEs)可以通过几种不同的方法(包括破碎、紧凑捕捉和稀释)来表示弯曲流形,从而帮助探索神经几何。研究表明,每个SAE特征只代表整个流形的一部分,因此需要对特征进行聚类以理解整体结构。利用这些发现的无监督流程可以通过按自身方式重建内部几何结构来增强我们对神经网络的理解。
查看原文
查看缓存全文

缓存时间: 2026/05/22 18:18

# SAEs 能否捕捉神经几何? 来源: https://www.goodfire.ai/research/can-saes-capture-neural-geometry 神经表征中的弯曲几何结构普遍存在,对于理解和控制神经网络至关重要——但直线处理起来要容易得多。 我们能用直线捕捉弯曲的神经几何吗? 可以——但很复杂。我们想起一个古老的寓言:盲人第一次遇到大象。每个人触摸不同的部位——鼻子、象牙、腿——各自得出不同结论:摸鼻子的人说大象像蛇,摸腿的说像树,等等。同样,单一直线只能让我们看到弯曲几何结构的部分视图,因此对整体图景的理解是不完整的。就像大象一样,只有将各部分理解为一个整体时,完整的意义才会浮现。 在这篇文章中,我们研究了稀疏自编码器(SAEs)学习到的方向与神经几何之间的关系,揭示了直线可以表示弯曲流形的三种不同方式。然后,我们利用这种理解开发了一个无监督流程,用于揭示神经表征中的几何结构。 如果我们能自动浮现神经几何,就可以大规模地、以神经网络自身的方式——使用它们所用的相同内部几何——来理解神经网络。这进而将使我们能够更深入地理解,并对神经网络进行更细粒度、更稳健的控制。 ## 稀疏自编码器:缺失整体图景 稀疏自编码器(SAEs)[1]Cunningham et al. 2023 (https://arxiv.org/abs/2309.08600) Bricken et al. 2023 (https://transformer-circuits.pub/2023/monosemantic-features) Gao et al. 2024 (https://arxiv.org/abs/2406.04093) Lieberum et al. 2024 (https://arxiv.org/abs/2408.05147) Costa et al. 2025 (https://arxiv.org/abs/2506.03093) Hindupur et al. 2025 (https://arxiv.org/abs/2503.01822) Fel et al. 2025 (https://arxiv.org/abs/2502.12892) 参见以下非技术性介绍(https://www.lesswrong.com/posts/8YnHuN55XJTDwGPMr/a-gentle-introduction-to-sparse-autoencoders)。 是一种流行的可解释性方法,用于将神经表征分解为激活空间中的许多不同方向。这些方向可以用来绘制神经网络的内部世界;激活被表示为方向的线性组合(加权和)。可解释性研究人员最初希望每个方向,或称"特征",都对应一个单一概念,并且该方向上的幅度对应某种强度或置信度。虽然我们现在知道直线并非神经认知的普遍"原子"(参见我们的主帖(https://www.goodfire.ai/research/the-world-inside-neural-networks)中的演示和引用),但SAE特征仍然可以为我们提供一个窗口,观察更复杂的几何结构。 就像寓言中的盲人和大象一样,没有哪个单独的SAE特征能"看到"弯曲流形的全部。但综合来看,我们可以利用一组SAE特征的观察结果来重建这样的流形。 ### SAE 特征表示流形的三种方式 我们在包含多种几何结构的合成数据上训练了一个稀疏自编码器,包括甜甜圈、球体、莫比乌斯带等。我们发现,随着用于重建表征的方向数量的变化,SAE可以以三种不同方式恢复几何结构: SAE特征捕捉流形的三种模式 **破碎化。** 流形上的每个点都由一个独特的特征单独表示。这些特征通过各自指向流形上的一个点来"铺满"弯曲结构。 **紧凑捕获。** 流形上的所有点共同由一小部分共享特征表示。SAE特征充当了流形的坐标系,尽管并非最自然的坐标系(因为它们是直线,而结构是弯曲表面)。 **稀释。** 流形上的点由中等数量的特征表示,这些特征在点之间部分共享。这在概念上介于破碎化和紧凑捕获之间。 当我们在实际的神经网络表征上训练SAE时,我们观察到的是稀释现象。方向对应于几何结构上不同大小和位置的区域。考虑下面的例子,真实的SAE特征和流形: 每个单独的SAE特征覆盖流形的不同部分。例如,考虑温度流形。标有"寒冷天气及其影响"的特征在一端激活,而标有"极端高温及其对活动和环境的影响"的特征在另一端激活。[2]Bills et al. 2023 (https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html) Huang et al. 2023 (https://arxiv.org/abs/2309.10312) Choi et al. 2024 (https://transluce.org/neuron-descriptions) Gur-Arieh et al. 2025 (https://arxiv.org/abs/2501.08319) 稀释有助于解释为什么SAE会同时让人感到有启发性和不满足。单个SAE方向可能会挑出流形的一个有意义的局部区域,但流形本身分布在许多这样的方向上。逐一查看这些方向就像与每位盲人交谈以理解大象:每个标签可能在局部是准确的,但全局结构缺失了。 ## 发现概念流形的无监督流程 如果单个SAE特征只揭示流形的局部片段,那么我们应该停止孤立地解释它们,转而搜索那些共同恢复完整结构的特征组。我们将这个想法转化为一个无监督流程。 我们使用SAE重建许多不同的内部表征,并收集激活模式(即,哪些SAE特征用于重建哪些激活)。然后,我们基于这些激活模式中的统计依赖性对特征进行聚类。 对于每个特征簇,我们询问由这些特征张成的空间捕获了什么样的几何。每条直线覆盖一个片段,一起的簇就揭示了整体几何。 下面的例子展示了我们的流程在Llama 3.1 8B中发现的一些流形: 通过我们的无监督流程发现的流形示例 通过我们的无监督流程发现的流形示例 *通过我们的无监督流程发现的流形示例。连我们自己都对Llama 3.1 8B神经几何的丰富性和特异性感到惊讶!* 尽管我们取得了明显的成功,但我们不认为事后处理SAE方向是最有效的流程。我们正在开发新的架构,专门用于无监督流形发现任务。 ## 结论:迈向自动理解流形 通过从孤立的方向转向多维流形,我们可以将局部片段转化为神经几何的整体视图。也就是说,使用方向作为特征的方法,如SAE,仍然是分解激活的有用工具,只要我们意识到它们的局限性。 此外,用于浮现流形的无监督流程只是成功的一半;表征几何提供了数据结构,但我们还需要了解内部操作(计算)如何作用于几何结构,以产生我们想要控制和设计的智能行为。(我们正在开发专门的研究智能体,以大规模自动解决这个问题!)只有同时理解这些,我们才能实现可解释性的更广阔愿景:对神经网络的整体、机制性理解。 *阅读完整论文 →* (https://arxiv.org/abs/2604.28119)

相似文章

稀疏自编码器中概念学习与神经元解释的几何视角

arXiv cs.LG

本文提出了一个统一的几何框架,用于理解稀疏自编码器中的概念学习和神经元解释,将概念形式化为集合,并定义了检测、分离和近似。它提供了误差界、容量约束,并与形式概念分析建立了联系,同时在合成数据上进行了实验。

WriteSAE:面向循环状态的稀疏自编码器

Hugging Face Daily Papers

WriteSAE 引入了第一个稀疏自编码器,能够分解状态空间模型和混合循环语言模型中的矩阵缓存写入,相比现有方法实现了更优的令牌级干预。