稀疏自编码器中概念学习与神经元解释的几何视角
摘要
本文提出了一个统一的几何框架,用于理解稀疏自编码器中的概念学习和神经元解释,将概念形式化为集合,并定义了检测、分离和近似。它提供了误差界、容量约束,并与形式概念分析建立了联系,同时在合成数据上进行了实验。
arXiv:2606.07007v1 Announce Type: new
摘要:我们提出了一个统一的数学框架,用于几何理解稀疏自编码器(SAE)中的概念学习和神经元解释。虽然SAE通过学习稀疏特征表示提高了神经网络的可解释性,但“概念”和“学习”的原则性定义仍不明确。我们将概念形式化为数据点的集合,并将概念学习视为人类定义概念与模型诱导概念之间的集合对齐问题。该公式区分了三种越来越强的学习概念——检测、分离和近似——并给出了概念可由单个神经元或多神经元单元表示的几何条件、误差界和容量约束。它还提供了对常见SAE现象的集合论解释,包括特征分裂、特征吸收、特征族和层次概念。最后,我们通过形式概念分析将概念学习和神经元解释联系起来,表明这两个方向不必一致,并且它们的多对多结构可以通过概念格来组织。在合成数据上使用ReLU和Top-$K$ SAE进行的实验验证了该理论,并揭示了SAE大小和稀疏性对概念学习的影响。
查看缓存全文
缓存时间: 2026/06/08 09:20
# 理解稀疏自编码器中概念学习与神经元解释的几何视角 Source: https://arxiv.org/html/2606.07007 ###### 摘要 我们提出了一个统一的数学框架,用于从几何角度理解稀疏自编码器(SAE)中的概念学习与神经元解释。尽管SAE通过学习稀疏特征表示提升了神经网络的可解释性,但“概念”与“学习”的原则性定义仍不明确。我们将概念形式化为数据点的集合,并将概念学习视为人类定义概念与模型诱导概念之间的集合对齐问题。这一表述区分了三种逐渐增强的学习模式——检测、分离和近似——并推导出概念可由单个神经元或多神经元单元表示时的几何条件、误差界和容量约束。它还为常见的SAE现象(包括特征分裂、特征吸收、特征族和层次概念)提供了集合论解释。最后,我们通过形式概念分析将概念学习与神经元解释联系起来,表明这两个方向不必一致,并且它们之间的多对多结构可以通过概念格来组织。使用ReLU和Top-K SAE在合成数据上的实验验证了该理论,并揭示了SAE规模和稀疏性对概念学习的影响。 Machine Learning, interpretability, ICML ## 1引言 请参考图注Figure 1: ReLU SAE(扩展因子=8,L1正则化=0.5)和Top-K SAE(扩展因子=8,K=4)的单神经元总激活(SNTA)和总神经元单激活(TNSA)示例。(a)ReLU SAE的SNTA,(b)ReLU SAE的TNSA;注意ReLU SAE的SNTA只是一个半空间,而TNSA是一个超平面排列区域 (Stanley and others,2007 (https://arxiv.org/html/2606.07007#bib.bib28))。(c)Top-K SAE的SNTA,(d)Top-K SAE的TNSA;注意Top-K SAE的SNTA是半空间的子集,其TNSA是超平面排列区域的子集。(d)中的阴影区域是正预激活(即z>0)超平面与负预激活(即z<0)超平面的交集。基于神经网络的大型模型在许多任务上取得了显著性能,但其内部机制仍然大多不透明 (Elhage et al.,2021 (https://arxiv.org/html/2606.07007#bib.bib35); Olah,2022 (https://arxiv.org/html/2606.07007#bib.bib36))。这种可解释性的缺乏限制了科学理解 (DeGrave et al.,2021 (https://arxiv.org/html/2606.07007#bib.bib41); Simon and Zou,2025 (https://arxiv.org/html/2606.07007#bib.bib40))、安全审计 (Anwar et al.,2024a (https://arxiv.org/html/2606.07007#bib.bib38),b (https://arxiv.org/html/2606.07007#bib.bib39)) 以及可靠部署。机械可解释性 (Elhage et al.,2021 (https://arxiv.org/html/2606.07007#bib.bib35); Olah,2022 (https://arxiv.org/html/2606.07007#bib.bib36)) 旨在通过分析模型激活中信息的表示和使用方式来理解模型的内部计算。一个主要挑战是神经网络中的神经元大多是 polysemantic 的 (Templeton,2024 (https://arxiv.org/html/2606.07007#bib.bib14))。单个神经元可能编码多个不相关的概念,而单个概念可能分布在许多神经元上。这种现象被称为多语义性或叠加 (Templeton,2024 (https://arxiv.org/html/2606.07007#bib.bib14); Elhage et al.,2022 (https://arxiv.org/html/2606.07007#bib.bib13); O’Neill et al.,2024 (https://arxiv.org/html/2606.07007#bib.bib5)),使得神经元层面的解释变得困难。稀疏自编码器 (SAEs) (Ng and others,2011 (https://arxiv.org/html/2606.07007#bib.bib3)) 通过学习激活的过完备稀疏表示来解决这个问题,产生的神经元通常更具可解释性和单语义性 (Cunningham et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib4))。SAEs 通常由线性表示假说 (Park et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib1)) 驱动,该假说认为有语义意义的概念对应于激活空间中的方向,并且近似线性组合。然而,仅凭向量方向在实践中无法定义人类可解释的概念。相反,解释需要结合输入数据进行上下文化。具体来说,会识别出使神经元高度激活的数据示例,并总结它们的共享模式来描述该神经元 (Bills et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib30))。因此,SAE 解释从根本上也依赖于内部神经元与数据示例集合之间的关系。这一视角在经验性 SAE 现象面前显得尤为重要。SAE 神经元可以解决多语义性 (Cunningham et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib4); O’Neill et al.,2024 (https://arxiv.org/html/2606.07007#bib.bib5));更大的 SAE 可能会将粗粒度神经元分裂成更精细的语义成分 (O’Neill et al.,2024 (https://arxiv.org/html/2606.07007#bib.bib5); Bricken et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib16));当一个神经元捕获了预期属于另一个神经元的数据点时,可能发生特征吸收 (Chanim et al.,2024 (https://arxiv.org/html/2606.07007#bib.bib15));神经元群体可能作为特征族共同激活 (Bricken et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib16))。这些观察表明,SAE 神经元并非具有固定含义的孤立向量,而是通过输入数据、激活和人类可解释的抽象定义的结构化关系的一部分。尽管有大量的实证研究,我们仍然缺乏一个统一的框架来解释这些现象何时发生,以及它们如何与激活几何相关联 (Costa et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib9); Felet al.,2025 (https://arxiv.org/html/2606.07007#bib.bib21))。这一困难的根源在于一个更根本的模糊性:在大多数关于概念学习和神经元解释的讨论中,“概念”和“学习”都没有被正式定义 (Ayonrinde and Jaburi,2025 (https://arxiv.org/html/2606.07007#bib.bib20))。这种模糊性呼应了长期存在的哲学争论。柏拉图主义或实在论将概念视为独立于其实例的抽象实体,而唯名论或数据基础论则将概念视为从示例集合中构建的抽象。机器学习更接近后者。也就是说,模型在经验数据上训练,解释通过内部神经元相关的示例来验证。从这个数据驱动的视角来看,神经元不应被视为诸如单个向量之类的原始对象,而应被解释为与该神经元相关联的数据点集合。数据基础论也阐明了模型学习一个概念意味着什么。人类概念如“动物”或“食物”对应于人类能够分组和描述的连贯示例集合。只有当与神经元相关的示例与人类可理解的集合对齐时,模型中的神经元才学会了人类概念。反之,当神经元在缺乏连贯抽象的异质示例上激活时,我们视其为多语义或不可解释的。在这项工作中,我们提出了一个理解概念学习和神经元解释的新框架。我们将概念学习和神经元解释都表述为人类概念与模型诱导概念之间的集合对齐问题,其中概念对应集合,学习对应对齐。正是数据和模型中的隐式偏差和潜在假设使得概念学习和神经元解释成为可能。在此观点下,神经元解释对应于如何表征神经元或 SAE 神经元选择的集合,而概念学习对应于所学集合是否与目标人类概念对齐。因此,在我们提出的数学框架中,我们将概念表示为集合,并通过几何和集合论结构研究它们的对齐。该框架区分了概念学习的不同模式,推导出它们出现的条件,并解释了诸如特征分裂、特征吸收和特征族等经验性 SAE 现象。我们进一步通过形式概念格将概念学习和神经元解释联系起来,为表示层次概念结构提供了一种形式化。总结而言,我们的贡献如下: 1. 我们提出了一个统一的几何和集合论框架,用于概念学习、人类概念对齐和 SAE 解释,将概念学习表述为人类可理解概念与模型诱导概念之间的集合对齐。 2. 我们区分了概念学习的三种模式——概念检测、概念分离和概念形成——并推导出充分必要条件,以及每种模式可实现时的标度律。 3. 我们表明概念学习和神经元解释是相关但不同的,并通过描述层次结构和神经元语义的形式概念格将它们联系起来。 ## 2相关工作 机械可解释性与稀疏自编码器。机械可解释性研究大型模型的内部计算 (Elhage et al.,2021 (https://arxiv.org/html/2606.07007#bib.bib35); Olah,2022 (https://arxiv.org/html/2606.07007#bib.bib36); Olsson et al.,2022 (https://arxiv.org/html/2606.07007#bib.bib37))。一个关键挑战是叠加,其中多个概念在重叠的神经方向中表示 (Elhage et al.,2022 (https://arxiv.org/html/2606.07007#bib.bib13))。稀疏自编码器 (SAEs) 与字典学习紧密相关 (Olshausen and Field,1997 (https://arxiv.org/html/2606.07007#bib.bib2)),学习过完备的稀疏特征来重建模型激活 (Ng and others,2011 (https://arxiv.org/html/2606.07007#bib.bib3))。最近的工作表明,SAEs 可以解开叠加表示并恢复更多单语义、人类可解释的特征 (Cunningham et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib4); O’Neill et al.,2024 (https://arxiv.org/html/2606.07007#bib.bib5); Templeton,2024 (https://arxiv.org/html/2606.07007#bib.bib14))。更近期,Bhalla et al. (2026 (https://arxiv.org/html/2606.07007#bib.bib24)) 发现概念位于低维流形上,且 SAEs 可以全局和局部地捕捉概念流形。我们的工作是 Park et al. (2023 (https://arxiv.org/html/2606.07007#bib.bib1)) 和 Bhalla et al. (2026 (https://arxiv.org/html/2606.07007#bib.bib24)) 的推广,因为我们在集合论框架下研究了概念的一般情况,其中概念可以是任意可测集。 SAE 架构与现象。越来越多的文献研究 SAE 特征中的经验现象,包括多语义性和单语义性 (Elhage et al.,2022 (https://arxiv.org/html/2606.07007#bib.bib13))、特征分裂和特征族 (Cunningham et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib4); Bricken et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib16))、以及特征吸收 (Chanim et al.,2024 (https://arxiv.org/html/2606.07007#bib.bib15))。多种 SAE 变体旨在改善稀疏性、特征质量或结构,包括 Gated SAEs (Rajamanoharan et al.,2024a (https://arxiv.org/html/2606.07007#bib.bib7))、JumpReLU SAEs (Rajamanoharan et al.,2024b (https://arxiv.org/html/2606.07007#bib.bib8))、Top-K SAEs (Gao et al.,2024 (https://arxiv.org/html/2606.07007#bib.bib6))、matching-pursuit SAEs (Costa et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib9))、ensemble SAEs (Gadgil et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib11))、SPaDE (Hindupur et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib17)) 和 hierarchical SAEs (Leask et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib10); Muchane et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib12))。特别地,层次和匹配追踪 SAEs 旨在捕捉概念间的层次或条件关系。然而,最近的工作也提出了担忧:SAEs 可能在随机初始化的变压器中发现看似可解释的特征 (Heap et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib19)),并且非常大的 SAEs 可以学习病态概念 (Michaud et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib18))。 概念学习与神经元解释。线性表示假说认为概念在激活空间中表示为方向并近似线性组合 (Park et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib1))。由于这些方向不能直接解释,神经元解释方法通常使用其最激活的示例来解释神经元或特征。例如,Bills et al. (2023 (https://arxiv.org/html/2606.07007#bib.bib30)) 使用 LLM 从高度激活和随机样本中推断概念,相关工作研究黑盒神经元解释 (Singh et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib31))。互补的基于概念的方法则从数据或预定义概念出发,搜索相应的神经元或方向 (Gurnee et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib34); Koh et al.,2020 (https://arxiv.org/html/2606.07007#bib.bib33))。此类关联的评估至关重要,Oikarinen et al. (2025 (https://arxiv.org/html/2606.07007#bib.bib32)) 总结了度量指标并提出了测试解释忠实性的标准。近期工作进一步表明,概念可能由更丰富的几何结构而非单个线性方向表示 (Fele et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib21); Shafran et al.,2026 (https://arxiv.org/html/2606.07007#bib.bib22); Sarfati et al.,2026 (https://arxiv.org/html/2606.07007#bib.bib23); Costa et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib9); Hindupur et al.,2025 (https://arxiv.org/html/2606.07007#bib.bib17))。 网络容量与超平面排列。神经网络的表达能力通常通过激活模式所诱导的区域来研究,区域数量作为容量度量 (Montúfar et al.,2014 (https://arxiv.org/html/2606.07007#bib.bib26); Pascanu et al.,2013 (https://arxiv.org/html/2606.07007#bib.bib27))。这一观点自然地与超平面排列相关联,其中神经元定义超平面来划分表示空间 (Stanley and others,2007 (https://arxiv.org/html/2606.07007#bib.bib28))。与稀疏选择机制密切相关,Su et al. (2026 (https://arxiv.org/html/2606.07007#bib.bib25)) 通过将专家选择视为超平面排列问题,分析了 Top-K 混合专家网络的容量。这种几何视角对于理解 Top-K SAE 及相关稀疏架构的容量具有重要意义。 ## 3预备知识 我们首先回顾稀疏自编码器(SAEs),重点关注 ReLU SAE (Cunningham et al.,2023 (https://arxiv.org/html/2606.07007#bib.bib4)) 和 Top-K SAE (Gao et al.,2024 (https://arxiv.org/html/2606.07007#bib.bib6))。设 x∈R^n 为来自大型模型的激活向量。SAE 将 x 映射到更高维的稀疏激活向量 a∈R^d,其中 d≫n,然后从 a 重建 x: z=Enc(x)=W_enc(x−b_pre)+b_enc, a=Act(z), x̂=Dec(a)=W_dec a+b_dec. 此处 Act 是
相似文章
SAEs 能否捕捉神经几何?(6分钟阅读)
本文探讨了稀疏自动编码器(SAEs)如何捕捉弯曲的神经几何,揭示了SAE特征表示流形的三种不同方式,并提出了一个无监督流程来揭示神经表征中的几何结构。
LoRA适配器的特征几何:微调语言模型中表征差异的稀疏自编码器分析
本文使用稀疏自编码器分析了语言模型中LoRA诱导表征的几何结构,发现LoRA更新占据的部分特征结构无法完全被预训练的可解释性词典捕获。
丢失还是隐藏?监督持续学习中的概念级遗忘
本文介绍了一种基于稀疏自编码器(Sparse Autoencoders)的诊断框架,用于分析持续学习中的概念级遗忘,发现大部分遗忘源于表示不可访问性而非信息擦除。
通过稀疏自编码器实现脑电图基础模型的机制可解释性
本文对三个脑电图基础模型(SleepFM、REVE、LaBraM)应用TopK稀疏自编码器,提取可解释的特征字典,并引入了概念引导框架,揭示了表征失败和临床纠缠问题。
从 GPT-4 中提取概念
OpenAI 推出稀疏自编码器作为从 GPT-4 等大型语言模型中提取和解释概念的方法,解决了理解神经网络行为这一根本挑战。他们发布了研究论文、代码和特征可视化工具,帮助研究人员大规模训练自编码器,并通过更好的可解释性提高 AI 安全性。