神经过程摊销高斯过程推理的三个代价
摘要
本文将对高斯过程和潜在神经过程后验之间的预测KL散度分解为三项,提供了刻画近似误差的上界,并将表示维度与核平滑度联系起来。
arXiv:2605.21798v1 公告类型:新
摘要:神经过程通过将精确的 $O(n^3)$ 后验替换为从上下文集到预测分布的学习到的 $O(n)$ 映射,来摊销高斯过程推理。对于一类潜在神经过程,我们界定了GP和LNP预测之间的Kullback-Leibler(KL)散度,将其分解为三个可解释的来源:标签污染(神经过程使用标签值来估计精确GP中与标签无关的量)、信息瓶颈(因为有限维表示无法解析完整的上下文几何结构)以及来自所有上下文共享的单个编码器网络的摊销误差。瓶颈截断项随表示维度 $d$ 的衰减:对于 $\mathbb{R}^{d_x}$ 上的平方指数核,衰减为 $O(e^{-cd^{2/d_x}})$,其中 $c > 0$ 是一个与核相关的常数;对于 Matérn-$\nu$ 核,衰减为 $O(d^{-2\nu/d_x})$,这直接将架构大小与核平滑度和输入维度联系起来。标签污染项通常是 $O(1)$,只有观测噪声分量衰减为 $O(1/n)$,这识别了通过依赖标签的表示进行不确定性估计路由的持续成本。这些结果刻画了所分析类别中摊销的成本,并产生了架构建议:在GP摊销机制中仅从上下文位置预测方差,以及用二阶池化替代均值聚合以缩小显著的摊销差距。
查看缓存全文
缓存时间: 2026/05/22 08:52
# 1 引言
来源:https://arxiv.org/html/2605.21798
高斯过程\(rasmussen2005gaussian\)针对给定的观测数据定义了函数上的精确后验分布。后验均值和方差具有闭式解,但计算复杂度在上下文点数量nn上为O\(n3\)O\(n^\{3\}\)阶111具体而言,对K\+σε2IK\+\\sigma\_\{\\epsilon\}^\{2\}I进行一次Cholesky分解的复杂度为O\(n3\)O\(n^\{3\}\),后续每次查询的预测复杂度为O\(n2\)O\(n^\{2\}\)。,这限制了可扩展性。
神经过程\(garnelo2018cnp;garnelo2018neuralprocesses\)通过学习从上下文集到预测分布的摊销映射来解决此问题。后续工作通过注意力机制\(kim2018attentive\)、卷积结构\(Gordon2020Convolutional\)和自回归分解\(bruinsma2023autoregressive\)扩展了该框架。潜变量神经过程 \(LNP\) 将每个上下文对通过编码器映射,聚合得到的特征形成有限维表示,该表示经识别网络产生潜变量分布,然后解码潜变量样本得到预测分布。在固定架构下,所有步骤的复杂度均为O\(n\)O\(n\)。当使用来自GP先验的样本进行训练时,LNP隐式地近似GP后验。
稀疏变分方法\(titsias2009sparse\)提供了一条扩展GP推断的途径,通过MM个诱导点将三次复杂度降低至O\(M2n\)O\(M^\{2\}n\)来总结后验。然而,得到的预测在测试时仍需要O\(M2\)O\(M^\{2\}\)计算,并且诱导位置必须与核超参数一起针对每个新数据集联合优化。在需要在许多相关任务中进行预测或面临实时约束的场景中,例如序贯实验设计\(shahriari2016taking\)、机器人学\(deisenroth2015gaussian\)或基于模拟的推断\(cranmer2020frontier\),这种逐任务优化本身就成为了瓶颈。神经过程完全消除了逐任务优化,只需一次前向传播即可将任意上下文集映射到预测分布,复杂度为O\(n\)O\(n\),无需矩阵求逆,也无需任务特定参数。这种摊销特性是其实际吸引力的来源,但也引入了稀疏GP框架中没有的近似代价。
已知这种近似会引入误差,因为LNP背后的变分推断倾向于低估不确定性,并且有限维瓶颈无法捕捉任意的上下文几何结构。然而,这些误差的量化表征尚不存在。foong2020meta指出了均值聚合的定性局限性,表明它会导致欠拟合,但未提供速率。人们在选择表示维度、编码器架构和方差参数化时缺乏关于逼近质量的正式指导。在稀疏GP文献中,burt2020convergence给出了稀疏变分后验与精确GP后验之间KL散度的界,表明对于平方指数核,M=O\(\(logN\)dx\)M=O\(\(\\log N\)^\{d\_\{x\}\}\)个诱导点就足够了。我们的瓶颈分析对神经过程起到了类似的作用,用表示维度dd替代了诱导点数量MM。
我们提供了这样一种表征。我们的主要贡献是:\(i\) 将预测KL散度KL\(pGP∥pLNP\)\\mathrm\{KL\}\(p\_\{\\mathrm\{GP\}\}\\\|p\_\{\\mathrm\{LNP\}\}\)分解为三个具有不同架构和统计来源的项;\(ii\) 给出了瓶颈项中截断分量的上界,该上界对于SE核随dd指数衰减,对于Matérn核多项式衰减,将表示维度与核光滑性联系起来;\(iii\) 将标签污染项表征为O\(1\)\+O\(1/n\)O\(1\)\+O\(1/n\),揭示了神经过程估计预测方差时的一种结构性失配;以及 \(iv\) 提出两个架构建议:在GP摊销场景中仅从位置预测方差,并使用二阶聚合而非均值聚合。
## 2 设定
### 2.1 高斯过程
令f∼GP\(0,k\)f\\sim\\mathcal\{GP\}\(0,k\)为一个零均值GP,其核为k:X×X→Rk:\\mathcal\{X\}\\times\\mathcal\{X\}\\to\\mathbb\{R\},定义在紧致域X⊂Rdx\\mathcal\{X\}\\subset\\mathbb\{R\}^\{d\_\{x\}\}上。给定上下文C=\{\(xi,yi\)\}i=1nC=\\\{\(x\_\{i\},y\_\{i\}\)\\\}\_\{i=1\}^\{n\},其中yi=f\(xi\)\+εiy\_\{i\}=f\(x\_\{i\}\)\+\\epsilon\_\{i\},εi∼N\(0,σε2\)\\epsilon\_\{i\}\\sim\\mathcal\{N\}\(0,\\sigma\_\{\\epsilon\}^\{2\}\),则目标点x∗x\_\{\*\}处的GP预测为:
pGP\(y∗∣x∗,C\)=N\(μGP,σGP2\)p\_\{\\mathrm\{GP\}\}\(y\_\{\*\}\\mid x\_\{\*\},C\)=\\mathcal\{N\}\(\\mu\_\{\\mathrm\{GP\}\},\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\) \(1\)其中
μGP\\displaystyle\\mu\_\{\\mathrm\{GP\}\}=k∗⊤\(K\+σε2I\)−1y,y=\(y1,...,yn\)⊤\\displaystyle=\\bm\{k\}\_\{\*\}^\{\\top\}\(K\+\\sigma\_\{\\epsilon\}^\{2\}I\)^\{\-1\}\\bm\{y\},\\quad\\bm\{y\}=\(y\_\{1\},\\dots,y\_\{n\}\)^\{\\top\}\) \(2\)σGP2\\displaystyle\\sigma^\{2\}\_\{\\mathrm\{GP\}\}=k\(x∗,x∗\)−k∗⊤\(K\+σε2I\)−1k∗,\\displaystyle=k\(x\_\{\*\},x\_\{\*\}\)\-\\bm\{k\}\_\{\*\}^\{\\top\}\(K\+\\sigma\_\{\\epsilon\}^\{2\}I\)^\{\-1\}\\bm\{k\}\_\{\*\},\) \(3\)其中\[k∗\]i=k\(x∗,xi\)\[\\bm\{k\}\_\{\*\}\]\_\{i\}=k\(x\_\{\*\},x\_\{i\}\),\[K\]ij=k\(xi,xj\)\[K\]\_\{ij\}=k\(x\_\{i\},x\_\{j\}\)。
一个结构性性质是,GP预测方差 \(3 (https://arxiv.org/html/2605.21798#S2.E3)\) 取决于上下文位置X=\{xi\}X=\\\{x\_\{i\}\\\},但不依赖于标签y\\bm\{y\}。
### 2.2 潜变量神经过程
###### 定义 1 \(潜变量神经过程\).
一个采用均值聚合的潜变量神经过程由以下部分组成:
1. 1. 编码器h:X×Y→Rdh:\\mathcal\{X\}\\times\\mathcal\{Y\}\\to\\mathbb\{R\}^\{d\},将上下文对映射为表示。
2. 2. 均值聚合:rC=1n∑i=1nh\(xi,yi\)r\_\{C\}=\\frac\{1\}\{n\}\\sum\_\{i=1\}^\{n\}h\(x\_\{i\},y\_\{i\}\)。
3. 3. 潜变量编码器:q\(z∣C\)=N\(μz\(rC\),Σz\(rC\)\)q\(z\\mid C\)=\\mathcal\{N\}\(\\mu\_\{z\}\(r\_\{C\}\),\\Sigma\_\{z\}\(r\_\{C\}\)\),其中z∈Rdzz\\in\\mathbb\{R\}^\{d\_\{z\}\}。
4. 4. 解码器:p\(y∗∣x∗,z\)=N\(w\(x∗\)⊤z\+b\(x∗\),σd2\)p\(y\_\{\*\}\\mid x\_\{\*\},z\)=\\mathcal\{N\}\(w\(x\_\{\*\}\)^\{\\top\}z\+b\(x\_\{\*\}\),\\sigma\_\{d\}^\{2\}\)。
映射μz:Rd→Rdz\\mu\_\{z\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\_\{z\}\}和Σz:Rd→R≻0dz×dz\\Sigma\_\{z\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\_\{z\}\\times d\_\{z\}\}\_\{\\succ 0\}通常是MLP,其中协方差输出通过Cholesky因子参数化以保证正定性。函数w:X→Rdzw:\\mathcal\{X\}\\to\\mathbb\{R\}^\{d\_\{z\}\}和b:X→Rb:\\mathcal\{X\}\\to\\mathbb\{R\}是学习得到的(通常由MLP参数化)关于目标位置的函数,而非网络权重和偏置。线性解码器(在zz上线性)是一种可处理性选择,能够产生闭式高斯后验p\(z∣C\)p\(z\\mid C\),便于第3.3节 (https://arxiv.org/html/2605.21798#S3.SS3)中的摊销差距分析;标准NP使用非线性MLP解码器。如果不熟悉NP,请参见附录A (https://arxiv.org/html/2605.21798#A1)获取更全面的介绍。
边际预测是高斯分布:
pLNP\(y∗∣x∗,C\)\\displaystyle p\_\{\\mathrm\{LNP\}\}\(y\_\{\*\}\\mid x\_\{\*\},C\)=N\(μLNP,σLNP2\),\\displaystyle=\\mathcal\{N\}\(\\mu\_\{\\mathrm\{LNP\}\},\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\),\) \(4\)μLNP\\displaystyle\\mu\_\{\\mathrm\{LNP\}\}=w\(x∗\)⊤μz\(rC\)\+b\(x∗\),\\displaystyle=w\(x\_\{\*\}\)^\{\\top\}\\mu\_\{z\}\(r\_\{C\}\)\+b\(x\_\{\*\}\),\) \(5\)σLNP2\\displaystyle\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}=w\(x∗\)⊤Σz\(rC\)w\(x∗\)\+σd2。\\displaystyle=w\(x\_\{\*\}\)^\{\\top\}\\Sigma\_\{z\}\(r\_\{C\}\)\\,w\(x\_\{\*\}\)\+\\sigma\_\{d\}^\{2\}\。\) \(6\)
与 \(3 (https://arxiv.org/html/2605.21798#S2.E3)\) 不同,LNP方差 \(6 (https://arxiv.org/html/2605.21798#S2.E6)\) 依赖于rCr\_\{C\},后者同时编码了上下文位置和标签。
### 2.3 预测KL散度
两个预测分布都是高斯分布,因此KL散度具有闭式形式:
KL\(pGP∥pLNP\)=12\[σGP2σLNP2−1\+\(μGP−μLNP\)2σLNP2\+logσLNP2σGP2\]\\mathrm\{KL\}\(p\_\{\\mathrm\{GP\}\}\\\|p\_\{\\mathrm\{LNP\}\}\)=\\frac\{1\}\{2\}\\left\[\\frac\{\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\}\{\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\}\-1\+\\frac\{\(\\mu\_\{\\mathrm\{GP\}\}\-\\mu\_\{\\mathrm\{LNP\}\}\)^\{2\}\}\{\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\}\+\\log\\frac\{\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\}\{\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\}\\right\]\) \(7\)
我们对期望差距EC\[KL\(pGP∥pLNP\)\]\\mathbb\{E\}\_\{C\}\[\\mathrm\{KL\}\(p\_\{\\mathrm\{GP\}\}\\\|p\_\{\\mathrm\{LNP\}\}\)\]进行界定,其中期望是对从GP先验中抽取的上下文求取。
###### 假设 1.
存在常数0<σl2≤σu2<∞0<\\sigma\_\{\\ell\}^\{2\}\\leq\\sigma\_\{u\}^\{2\}<\\infty,使得对于所有上下文CC、位置XX和目标点x∗∈Xx\_\{\*\}\\in\\mathcal\{X\},有σl2≤σLNP2\(x∗;C\)≤σu2\\sigma\_\{\\ell\}^\{2\}\\leq\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\(x\_\{\*\};C\)\\leq\\sigma\_\{u\}^\{2\}且σl2≤σGP2\(x∗;X\)≤σu2\\sigma\_\{\\ell\}^\{2\}\\leq\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\(x\_\{\*\};X\)\\leq\\sigma\_\{u\}^\{2\}。
## 3 方差误差的分解
方差差距是变分推断 \(VI\) 偏差的主要来源。我们将其分解为三个来源。定义方差误差为Δσ2=σLNP2−σGP2\\Delta\\sigma^\{2\}=\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\-\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\。
### 3.1 标签污染
GP方差σGP2\(x∗;X\)\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\(x\_\{\*\};X\)仅是上下文位置的函数。LNP方差σLNP2\(x∗;rC\)\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\(x\_\{\*\};r\_\{C\}\)通过rCr\_\{C\}依赖于标签。这种失配在方差估计中引入了噪声。
###### 假设 2.
编码器在yy上是仿射的:h\(x,y\)=φ\(x\)\+ψ\(x\)yh\(x,y\)=\\phi\(x\)\+\\psi\(x\)y,且存在正常数Bφ,BψB\_\{\\phi\},B\_\{\\psi\}使得对于所有x∈Xx\\in\\mathcal\{X\},有‖φ\(x\)‖≤Bφ\\\|\\phi\(x\)\\\|\\leq B\_\{\\phi\}和‖ψ\(x\)‖≤Bψ\\\|\\psi\(x\)\\\|\\leq B\_\{\\psi\}。
在此假设下,表示分解为:
rC=1n∑i=1nφ\(xi\)⏟φ ̄X\+1n∑i=1nψ\(xi\)yi⏟δy。r\_\{C\}=\\underbrace\{\\frac\{1\}\{n\}\\sum\_\{i=1\}^\{n\}\\phi\(x\_\{i\}\)\}\_\{\\bar\{\\phi\}\_\{X\}\}\+\\underbrace\{\\frac\{1\}\{n\}\\sum\_\{i=1\}^\{n\}\\psi\(x\_\{i\}\)y\_\{i\}\}\_\{\\delta\_\{y\}\}\。\) \(8\)
第一项仅依赖于位置;第二项引入了标签依赖性。
###### 假设 3.
映射μz:Rd→Rdz\\mu\_\{z\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\_\{z\}\}和Σz:Rd→Rdz×dz\\Sigma\_\{z\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\_\{z\}\\times d\_\{z\}\}分别是LμL\_\{\\mu\}-Lipschitz和LΣL\_\{\\Sigma\}-Lipschitz的。解码器满足‖w\(x∗\)‖≤Bw\\\|w\(x\_\{\*\}\)\\\|\\leq B\_\{w\}。
###### 定理 1 \(标签污染界\).
在假设2 (https://arxiv.org/html/2605.21798#Thmassumption2)和假设3 (https://arxiv.org/html/2605.21798#Thmassumption3)下,对于从具有核kk和噪声方差σε2\\sigma\_\{\\epsilon\}^\{2\}的GP先验中抽取的上下文:
EC\[Vary\|X\[σLNP2\(x∗;C\)\]\]≤LΣ2Bw4Bψ2\(σε2n\+κk\)\\mathbb\{E\}\_\{C\}\\\!\\left\[\\mathrm\{Var\}\_\{\\bm\{y\}\|X\}\\\!\\left\[\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\(x\_\{\*\};C\)\\right\]\\right\]\\leq L\_\{\\Sigma\}^\{2\}B\_\{w\}^\{4\}B\_\{\\psi\}^\{2\}\\\!\\left\(\\frac\{\\sigma\_\{\\epsilon\}^\{2\}\}\{n\}\+\\kappa\_\{k\}\\right\)\) \(9\)其中κk=supx∈Xk\(x,x\)\\kappa\_\{k\}=\\sup\_\{x\\in\\mathcal\{X\}\}k\(x,x\)界定了信号方差。第一项源于观测噪声,衰减为O\(1/n\)O\(1/n\);第二项源于GP先验下的相关性,是O\(1\)O\(1\)阶的。
###### 证明思路。
将依赖于标签的分量分解为δy=δf\+δε\\delta\_\{y\}=\\delta\_\{f\}\+\\delta\_\{\\epsilon\},其中δf=1n∑iψ\(xi\)f\(xi\)\\delta\_\{f\}=\\frac\{1\}\{n\}\\sum\_\{i\}\\psi\(x\_\{i\}\)f\(x\_\{i\}\),δε=1n∑iψ\(xi\)εi\\delta\_\{\\epsilon\}=\\frac\{1\}\{n\}\\sum\_\{i\}\\psi\(x\_\{i\}\)\\epsilon\_\{i\}\)。噪声项是独立同分布的和,因此E\[‖δε‖2∣X\]≤Bψ2σε2/n\\mathbb\{E\}\[\\\|\\delta\_\{\\epsilon\}\\\|^\{2\}\\mid X\]\\leq B\_\{\\psi\}^\{2\}\\sigma\_\{\\epsilon\}^\{2\}/n。信号项的协方差为1n2∑i,jψ\(xi\)ψ\(xj\)⊤k\(xi,xj\)\\frac\{1\}\{n^\{2\}\}\\sum\_\{i,j\}\\psi\(x\_\{i\}\)\\psi\(x\_\{j\}\)^\{\\top\}k\(x\_\{i\},x\_\{j\}\)。由于kk是正定核且对角线上界为κk\\kappa\_\{k\},行和界给出E\[‖δf‖2∣X\]≤Bψ2κk\\mathbb\{E\}\[\\\|\\delta\_\{f\}\\\|^\{2\}\\mid X\]\\leq B\_\{\\psi\}^\{2\}\\kappa\_\{k\},这是O\(1\)O\(1\)阶的,因为GP相关的f\(xi\)f\(x\_\{i\}\)并不集中。然后通过Σz\\Sigma\_\{z\}的Lipschitz连续性将这些界转移到σLNP2\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}。完整证明见第B.1节 (https://arxiv.org/html/2605.21798#A2.SS1)。∎
### 3.2 信息瓶颈
即使消除了标签依赖性(通过对y\\bm\{y\}取条件或将φ ̄X\\bar\{\\phi\}\_\{X\}作为表示),dd维的摘要φ ̄X\\bar\{\\phi\}\_\{X\}也无法捕获决定GP方差的完整上下文几何结构。222瓶颈误差的截断分量遵循标准的Mercer逼近理论。我们将其作为基准,用于衡量额外的NP特定代价(标签污染、摊销差距)。这些额外的代价在稀疏变分GP理论中没有类似物。
###### 定义 2 \(Mercer展开\).
设\{\(λj,ej\)\}j=1∞\\\{\(\\lambda\_\{j\},e\_\{j\}\)\\\}\_\{j=1\}^\{\\infty\}是核积分算子TkT\_\{k\}关于X\\mathcal\{X\}上的基测度μ\\mu(我们默认该测度与抽取上下文位置的分布一致)的特征分解:
k\(x,x′\)=∑j=1∞λjej\(x\)ej\(x′\)。k\(x,x^\{\\prime\}\)=\\sum\_\{j=1\}^\{\\infty\}\\lambda\_\{j\}\\,e\_\{j\}\(x\)\\,e\_\{j\}\(x^\{\\prime\}\)。\) \(10\)
###### 假设 4.
位置编码器使用前dd个核特征函数φ\(x\)=\(λ1e1\(x\),...,λded\(x\)\)⊤\\phi\(x\)=\(\\sqrt\{\\lambda\_\{1\}\}\\,e\_\{1\}\(x\),\\dots,\\sqrt\{\\lambda\_\{d\}\}\\,e\_\{d\}\(x\)\)^\{\\top\}。
这是在最小化核逼近的积分平方误差意义上最优的dd维编码器。均值表示变为φ ̄X=1n∑iφ\(xi\)\\bar\{\\phi\}\_\{X\}=\\frac\{1\}\{n\}\\sum\_\{i\}\\phi\(x\_\{i\}\),它捕获了经验上下文度量在前dd个核特征函数上的投影。
###### 假设 5.
表示维度dd足够大,使得尾算子范数满足
η\(X\)=‖A−1/2KTA−1/2‖op<1,\\eta\(X\)\\;=\\;\\bigl\\\|A^\{\-1/2\}\\,K\_\{T\}\\,A^\{\-1/2\}\\bigr\\\|\_\{\\mathrm\{op\}\}\\;<\\;1,\) \(11\)其中A=KH\+σε2IA=K\_\{H\}\+\\sigma\_\{\\epsilon\}^\{2\}I,头核矩阵\[KH\]il=∑j≤dλjej\(xi\)ej\(xl\)\[K\_\{H\}\]\_\{il\}=\\sum\_\{j\\leq d\}\\lambda\_\{j\}\\,e\_\{j\}\(x\_\{i\}\)\\,e\_\{j\}\(x\_\{l\}\),尾核矩阵\[KT\]il=∑j\>dλjej\(xi\)ej\(xl\)\[K\_\{T\}\]\_\{il\}=\\sum\_\{j\>d\}\\lambda\_\{j\}\\,e\_\{j\}\(x\_\{i\}\)\\,e\_\{j\}\(x\_\{l\}\)。
###### 定理 2 \(信息瓶颈界\).
在假设4 (https://arxiv.org/html/2605.21798#Thmassumption4)和假设5 (https://arxiv.org/html/2605.21798#Thmassumption5)下,对于目标点x∗x\_\{\*\}和从μ\\μ中独立同分布抽取的上下文位置X=\{xi\}i=1nX=\\\{x\_\{i\}\\\}\_\{i=1\}^\{n\}:
EX\[\(σGP2\(x∗;X\)−gd∗\(φ ̄X\)\)2\]≤Rd\(k,n\)\+Sd\(k,x∗\),\\mathbb\{E\}\_\{X\}\\\!\\left\[\\left\(\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\(x\_\{\*\};X\)\-g\_\{d\}^\{\*\}\(\\bar\{\\phi\}\_\{X\}\)\\right\)^\{2\}\\right\]\\leq R\_\{d\}\(k,n\)\+S\_\{d\}\(k,x\_\{\*\}\),\) \(12\)其中gd∗g\_\{d\}^\{\*\}是从φ ̄X\\bar\{\\phi\}\_\{X\}估计σGP2\\sigma^\{2\}\_\{\\mathrm\{GP\}\}的最优估计器,且:
Rd\(k,n\)\\displaystyle R\_\{d\}\(k,n\)=O\(d2n\)\+Rdinfo,\\displaystyle=O\\\!\\left\(\\fr相似文章
分叉附近的状态空间NTK坍缩
本文发展了动力模型分叉附近梯度下降的局部理论,表明状态空间神经正切核坍缩为秩一算子,主导学习动力学,使优化有效低维且可从规范形式预测。
表示差距:从几何角度解释神经网络异常有效性
本文引入表示差距(Representation Gap),一个具有更好渐近动态的神经网络泛化误差度量。通过几何视角和最优量化理论,作者证明该度量由任务的内在维度主导,并在合成和真实数据集上进行了实证验证。
神经网络损失景观的谱渐近:曲率指数的精确分解
本文提出了神经网络损失景观中曲率指数α的精确分解,解释了为何该指数在不同层类型间存在差异。引入了谱对齐分解,并导出了一个谱传递恒等式,连接曲率、梯度秩衰减和Hessian指数,该恒等式已在多种架构和数据集上得到验证。
神经算子的定量 Sobolev 逼近界及其在 Burgers 方程上的实证验证
本文建立了神经算子的定量 Sobolev 逼近界,证明了算子可以以显式的复杂度-误差关系进行一致逼近。通过在 Burgers 方程上对 Fourier 神经算子(FNOs)进行验证,展示了 Sobolev 空间逼近理论能够准确预测其缩放行为。
刻画神经过程的表征能力
本文从理论上刻画了神经过程(NP)架构的表征能力,证明了条件NP、注意力NP、卷积NP和Transformer NP之间存在严格的层级关系,并表明有限维潜变量不会将表征能力扩展到编码器之外。