刻画神经过程的表征能力
摘要
本文从理论上刻画了神经过程(NP)架构的表征能力,证明了条件NP、注意力NP、卷积NP和Transformer NP之间存在严格的层级关系,并表明有限维潜变量不会将表征能力扩展到编码器之外。
arXiv:2605.24210v1 发布类型:新
摘要:神经过程可以表示哪些函数?我们分析了流行的 NP 架构的表征能力:条件神经过程(CNP)、注意力神经过程(ANP)、Transformer 神经过程(TNP)及其潜变量变体。我们证明这些架构形成了一个严格的层级关系。CNP 可表示的函数恰好是那些依赖于上下文分布的有限期望特征的函数。ANP 通过依赖于查询的重新加权严格泛化了 CNP,实现了核平滑器。ConvCNP 和 ANP 不可比较;各自包含对方之外的函数,通过平稳性与平移等变性区分。具有 $L$ 自注意力层的 TNP 捕获 $L$ 跳上下文交互。对于潜变量 NP,我们表明有限维潜变量提供连贯采样,但无法规避编码器限制;匹配 GP 后验分布需要潜变量维度随上下文大小缩放。这些结果为基于任务结构的架构选择提供了理论基础。
查看缓存全文
缓存时间: 2026/05/26 09:01
# 表征神经过程的表示容量
来源: https://arxiv.org/html/2605.24210
###### 摘要
神经过程能够表示什么函数?我们分析了流行的 NP 架构的表示容量:条件神经过程 (Conditional Neural Processes, CNPs)、注意力神经过程 (Attentive Neural Processes, ANPs)、Transformer 神经过程 (Transformer Neural Processes, TNPs) 及其潜变量变体。我们证明这些架构构成了一个严格的层级结构。CNP 可表示的函数恰好是那些依赖于上下文分布有限数量期望特征的函数。ANP 通过查询相关的重新加权严格推广了 CNP,从而实现了核平滑器。ConvCNP 和 ANP 是不可比的;各自包含对方无法表示的函数,其区别由平稳性与平移等变性决定。具有 L 层自注意力的 TNP 能够捕获 L 跳的上下文交互。对于潜变量 NP,我们证明有限维潜变量能够提供一致的函数采样,但无法绕过编码器的限制;匹配高斯过程后验分布需要潜变量维度随上下文大小扩展。这些结果为基于任务结构的架构选择提供了理论基础。
## 1 引言
神经过程 (Neural Processes) (Garneloet al., 2018a (https://arxiv.org/html/2605.24210#bib.bib14), b (https://arxiv.org/html/2605.24210#bib.bib15)) 已成为元学习和小样本预测的一类模型。通过学习将上下文集映射到预测分布,NP 将神经网络的计算效率与高斯过程 (Gaussian Processes, GPs) 传统上关联的不确定性量化结合起来。自提出以来,已经提出了众多架构变体,包括条件神经过程 (Conditional Neural Processes, CNPs)、注意力神经过程 (Attentive Neural Processes, ANPs) (Kimet al., 2019 (https://arxiv.org/html/2605.24210#bib.bib18))、卷积 CNP (Convolutional CNPs) (Gordonet al., 2020 (https://arxiv.org/html/2605.24210#bib.bib16)) 和 Transformer 神经过程 (Transformer Neural Processes, TNPs) (Nguyen and Grover, 2022 (https://arxiv.org/html/2605.24210#bib.bib21))。许多人观察到这些架构展现出不同的能力。ANP 在需要局部适应性的任务上优于 CNP,ConvCNP 在空间结构化的平稳任务上表现出色,而 TNP 在需要全局一致性的任务上表现优异,但解释这些差异的理论基础一直缺乏。在本文中,我们回答了一个自然问题:*神经过程能够表示什么函数?* 我们提供了 CNP 可表示函数的刻画,即那些依赖于经验上下文分布有限数量期望特征的函数。我们证明 ANP 通过实现查询相关的重新加权严格推广了 CNP,并通过显式构造表明核平滑器是 ANP 可表示的,但位于 CNP 函数类之外。我们展示了 ConvCNP 和 ANP 在层级结构中是不可比的,其区别由平稳性与平移等变性决定。对于 TNP,我们确立了 L 层自注意力能够捕获 L 跳的上下文交互,并证明了匹配的上界和下界:Θ(κ log(1/ε)) 层是 ε-近似 GP 后验所必需且充分的,其中 κ 是核矩阵的条件数。我们将分析扩展到潜变量 NP,证明有限维潜变量提供一致的函数采样,但不会扩展超出编码器允许的表示容量。
## 2 相关工作
神经过程由 Garneloet al. (2018a (https://arxiv.org/html/2605.24210#bib.bib14)) 引入,作为元学习中对高斯过程的一种计算高效替代方案,潜变量扩展随后在 Garneloet al. (2018b (https://arxiv.org/html/2605.24210#bib.bib15)) 中提出。后续工作开发了众多架构变体。注意力神经过程 (Attentive Neural Processes) (Kimet al., 2019 (https://arxiv.org/html/2605.24210#bib.bib18)) 将均值聚合替换为交叉注意力,使得上下文表示依赖于目标位置。卷积条件神经过程 (Convolutional Conditional Neural Processes) (Gordonet al., 2020 (https://arxiv.org/html/2605.24210#bib.bib16)) 通过卷积聚合引入平移等变性,在空间结构化任务上取得了强性能。Transformer 神经过程 (Transformer Neural Processes) (Nguyen and Grover, 2022 (https://arxiv.org/html/2605.24210#bib.bib21)) 在交叉注意力之前对上下文集应用自注意力,使得上下文点能够交换信息。实践者观察到这些架构展现出性质不同的能力,但解释这些差异的理论基础一直缺失。我们提供了每个架构类表示容量的首次严格刻画,证明它们构成了一个严格的层级结构。
函数在集合上的表示已在深度学习文献中得到广泛研究。Zaheeret al. (2017 (https://arxiv.org/html/2605.24210#bib.bib4)) 证明了置换不变函数可以通过使用求和或均值聚合的 DeepSets 架构来表示,而后续工作 Wagstaffet al. (2019 (https://arxiv.org/html/2605.24210#bib.bib8)) 则证明了其局限性,即没有连续函数能够通过固定维度的聚合在无界大小的集合上保持单射性。我们的工作将这些结果扩展到预测设置,其中输出依赖于上下文集和目标位置。区别在于神经过程必须产生查询相关的预测,而不仅仅是集合级别的摘要。我们证明,即使聚合维度保持不变,查询相关的重新加权也严格扩展了表示容量。
高斯过程是回归中不确定性量化的标准方法,但其精确推断的计算复杂度随观测数量呈三次方增长。这激发了稀疏近似的大量工作,包括诱导点方法 (Snelson and Ghahramani, 2005 (https://arxiv.org/html/2605.24210#bib.bib26); Titsias, 2009 (https://arxiv.org/html/2605.24210#bib.bib23))、随机傅里叶特征 (Rahimi and Recht, 2007 (https://arxiv.org/html/2605.24210#bib.bib25)) 和结构化核插值 (Wilson and Nickisch, 2015 (https://arxiv.org/html/2605.24210#bib.bib24))。神经过程采用不同的方法,它们通过跨任务训练的编码器-解码器架构来学习摊销类似 GP 的推断。我们的结果刻画了这种摊销何时可能。我们证明 CNP 和 ANP 无论如何增加编码器容量都无法表示 GP 后验 (定理 6 (https://arxiv.org/html/2605.24210#Thmtheorem6) 和 12 (https://arxiv.org/html/2605.24210#Thmtheorem12)),而 TNP 可以近似 GP 后验,其深度缩放为 Θ(κ log(1/ε)),其中 κ 是核矩阵的条件数 (定理 15 (https://arxiv.org/html/2605.24210#Thmtheorem15), 命题 14 (https://arxiv.org/html/2605.24210#Thmtheorem14))。这精确地说明了 TNP 在简单架构失败之处成功的原因。
Transformer 架构的表示容量近来受到广泛关注。Yunet al. (2020 (https://arxiv.org/html/2605.24210#bib.bib27)) 证明了 Transformer 是序列到序列函数的通用近似器,而 Pérezet al. (2021 (https://arxiv.org/html/2605.24210#bib.bib28)) 在适当假设下建立了图灵完备性。我们的深度下界 (定理 15 (https://arxiv.org/html/2605.24210#Thmtheorem15)) 为这一文献贡献了任务特定的深度需求。近似 GP 后验需要 Ω(κ log(1/ε)) 层,无论宽度如何。关键洞察是在 y_C=0 处线性化将雅可比矩阵简化为注意力矩阵的多项式,从而能够应用经典的近似障碍。这一技术可能适用于其他需要矩阵求逆的回归任务。
我们的深度下界依赖于近似理论中的经典结果,特别是区间上 1/μ 的多项式近似的切比雪夫障碍,可追溯到切比雪夫和马尔科夫的基础工作;参见 Trefethen (2019 (https://arxiv.org/html/2605.24210#bib.bib6)) 的现代处理。迭代方法与多项式近似之间的联系在数值线性代数中已得到充分确立,其中切比雪夫迭代对于线性系统达到最优收敛速率 (Golub and Van Loan, 2013 (https://arxiv.org/html/2605.24210#bib.bib30))。我们的贡献在于认识到 Transformer 自注意力层实现了多项式迭代,并且支配经典迭代方法的相同障碍也支配着神经网络深度需求。匹配的上界 (命题 14 (https://arxiv.org/html/2605.24210#Thmtheorem14)) 表明,通过适当选择注意力权重可以实现切比雪夫多项式构造。
元学习的理论分析已在多个方向上发展。学习如何学习的泛化界由 Baxter (2000 (https://arxiv.org/html/2605.24210#bib.bib9)) 建立,后续使用 PAC-贝叶斯 (Pentina and Lampert, 2014 (https://arxiv.org/html/2605.24210#bib.bib20); Rothfusset al., 2021 (https://arxiv.org/html/2605.24210#bib.bib22)) 和信息论 (Jose and Simeone, 2021 (https://arxiv.org/html/2605.24210#bib.bib19)) 技术进行了改进。这些结果限制了元学习器泛化到新任务所需的任务数量。我们的工作是互补的。我们刻画了什么可以被表示,而不是可以多快被学习。我们建立的表达能力层级结构对元学习理论具有启示意义。如果目标预测器位于其函数类之外,CNP 无法从额外任务中获益,但神经过程的完整样本复杂度分析仍有待开展。
## 3 预备知识
令 X ⊆ R^{d_x} 为输入空间,Y ⊆ R^{d_y} 为输出空间。上下文集是有限集合 C = {(x_i, y_i)}_{i=1}^n,其中 x_i ∈ X, y_i ∈ Y。上下文空间 C = ⋃_{n=1}^∞ (X × Y)^n / S_n 是所有有限多重集的集合,C_{≤N} 是其大小不超过 N 的子集。一个*预测映射* F: C × X → Θ 给定上下文集 C 和目标位置 x_t 时,返回分布参数 θ ∈ Θ。
#### 条件神经过程 (Conditional Neural Process, CNP)
CNP 计算:
h_i = h_φ(x_i, y_i) ∈ R^d (编码每个上下文点) (1)
r_C = (1/n) ∑_{i=1}^n h_i ∈ R^d (通过均值聚合) (2)
θ = g_ψ(x_t, r_C) ∈ Θ (在目标处解码) (3)
其中 h_φ: X × Y → R^d 是编码器,g_ψ: X × R^d → Θ 是解码器。
#### 注意力神经过程 (Attentive Neural Process, ANP)
ANP 使用从目标到上下文的交叉注意力:
α_i(x_t; C) = exp(q(x_t)^T k(x_i, y_i)/τ) / ∑_{j=1}^n exp(q(x_t)^T k(x_j, y_j)/τ) (4)
r_C(x_t) = ∑_{i=1}^n α_i(x_t; C) v(x_i, y_i) (5)
θ = g_ψ(x_t, r_C(x_t)) (6)
其中 q: X → R^{d_k} 是查询网络,k: X × Y → R^{d_k} 是键网络,v: X × Y → R^d 是值网络。
#### Transformer 神经过程 (Transformer Neural Process, TNP)
TNP 在交叉注意力之前对上下文应用自注意力:
β_{ij}^{(ℓ)} = exp(q_s(ĥ_i^{(ℓ-1)})^T k_s(ĥ_j^{(ℓ-1)})/τ) / ∑_{m=1}^n exp(q_s(ĥ_i^{(ℓ-1)})^T k_s(ĥ_m^{(ℓ-1)})/τ) (7)
ĥ_i^{(ℓ)} = ∑_{j=1}^n β_{ij}^{(ℓ)} W_v ĥ_j^{(ℓ-1)} (8)
对于层 ℓ = 1,...,L,其中 ĥ_i^{(0)} = h(x_i, y_i)。然后最终表示用于交叉注意力,如同 ANP。
#### 卷积神经过程 (Convolutional Neural Process, ConvCNP)
ConvCNP 用函数卷积通道替代有限维聚合。非负滤波器 w: R^{d_x} → R_+ 和逐点编码器 h: Y → R^d 产生:
ρ_C(x) = ∑_{i=1}^n w(x - x_i) (密度通道) (9)
s_C(x) = ∑_{i=1}^n w(x - x_i) h(y_i) (信号通道) (10)
r̃_C = Φ(s_C, ρ_C) (CNN 处理) (11)
θ = g(r̃_C(x_t), x_t) (在目标处读取) (12)
其中 Φ 是一个多层 CNN。纯 ConvCNP 省略 CNN:θ = g(s_C(x_t), ρ_C(x_t), x_t)。我们区分纯卷积聚合和后续的 CNN 处理,因为它们贡献了性质不同的表示能力。
表示容量的核心问题本质上是:关于上下文的哪些信息可以到达预测?对于 CNP,只有均值聚合的编码,且上下文点被独立处理。对于 ANP,查询可以对上下文点重新加权,但权重是因子化的,且上下文点仍然没有交互。ConvCNP 通过函数表示提升了有限维瓶颈,CNN 使得上下文-上下文耦合成为可能,但仅通过平移等变操作。对于 TNP,自注意力让上下文点在做出预测之前交换信息。这种从无交互,到查询介导的重新加权,再到完全上下文-上下文耦合的演进,正是我们所建立的层级结构的驱动力。
## 4 条件神经过程
###### 定义 1 (h-等价)
对于固定编码器 h: X × Y → R^d,两个上下文集 C, C' 称为 h-等价,记作 C ~_h C',如果 (1/|C|) ∑_{(x,y)∈C} h(x,y) = (1/|C'|) ∑_{(x,y)∈C'} h(x,y)。
###### 命题 2 (不可区分性)
具有编码器 h 的 CNP 无法区分 h-等价的上下文集:如果 C ~_h C',则 CNP(C, x_t) = CNP(C', x_t)。相似文章
表示能力:Transformer语言模型中特征表示的几何限制
本文基于线性表示和叠加假设,引入了一个定量框架,用于估计Transformer语言模型的潜在空间能够支持多少近似正交的方向。作者将表示能力定义为可区分特征的上限,并表明它对允许的正交偏差呈指数敏感,且更大的模型倾向于更严格的约束。
广义神经元
本文探讨了深度学习中的通用近似定理,分析了使用 ReLU 激活函数时单个神经元和神经网络层的表示能力。
表示差距:从几何角度解释神经网络异常有效性
本文引入表示差距(Representation Gap),一个具有更好渐近动态的神经网络泛化误差度量。通过几何视角和最优量化理论,作者证明该度量由任务的内在维度主导,并在合成和真实数据集上进行了实证验证。
重新审视Padded Transformer的表达能力:哪些架构选择重要,哪些不重要
这篇理论论文分析了填充Transformer的表达能力,表明与数值精度和模型深度相比,注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类(如AC0和TC0)之间的等价关系,提供了稳健的特征描述。
CSP-Atlas: 稀疏Python Transformer中的概念特异性神经回路
本文研究了稀疏8层Python Transformer中的神经回路,发现针对106个编程概念存在专用回路,并将其分解为概念特异性和令牌驱动组件,这对理解代码模型中的结构编码具有重要意义。