神经过程摊销高斯过程推理的三个代价

arXiv cs.LG 2026/05/22 04:00 论文

摘要

本文将对高斯过程和潜在神经过程后验之间的预测KL散度分解为三项，提供了刻画近似误差的上界，并将表示维度与核平滑度联系起来。

arXiv:2605.21798v1 公告类型：新摘要：神经过程通过将精确的 $O(n^3)$ 后验替换为从上下文集到预测分布的学习到的 $O(n)$ 映射，来摊销高斯过程推理。对于一类潜在神经过程，我们界定了GP和LNP预测之间的Kullback-Leibler（KL）散度，将其分解为三个可解释的来源：标签污染（神经过程使用标签值来估计精确GP中与标签无关的量）、信息瓶颈（因为有限维表示无法解析完整的上下文几何结构）以及来自所有上下文共享的单个编码器网络的摊销误差。瓶颈截断项随表示维度 $d$ 的衰减：对于 $\mathbb{R}^{d_x}$ 上的平方指数核，衰减为 $O(e^{-cd^{2/d_x}})$，其中 $c > 0$ 是一个与核相关的常数；对于 Matérn-$\nu$ 核，衰减为 $O(d^{-2\nu/d_x})$，这直接将架构大小与核平滑度和输入维度联系起来。标签污染项通常是 $O(1)$，只有观测噪声分量衰减为 $O(1/n)$，这识别了通过依赖标签的表示进行不确定性估计路由的持续成本。这些结果刻画了所分析类别中摊销的成本，并产生了架构建议：在GP摊销机制中仅从上下文位置预测方差，以及用二阶池化替代均值聚合以缩小显著的摊销差距。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:52

# 1 引言
来源：https://arxiv.org/html/2605.21798
高斯过程\(rasmussen2005gaussian\)针对给定的观测数据定义了函数上的精确后验分布。后验均值和方差具有闭式解，但计算复杂度在上下文点数量nn上为O\(n3\)O\(n^\{3\}\)阶111具体而言，对K\+σε2IK\+\\sigma\_\{\\epsilon\}^\{2\}I进行一次Cholesky分解的复杂度为O\(n3\)O\(n^\{3\}\)，后续每次查询的预测复杂度为O\(n2\)O\(n^\{2\}\)。，这限制了可扩展性。

神经过程\(garnelo2018cnp;garnelo2018neuralprocesses\)通过学习从上下文集到预测分布的摊销映射来解决此问题。后续工作通过注意力机制\(kim2018attentive\)、卷积结构\(Gordon2020Convolutional\)和自回归分解\(bruinsma2023autoregressive\)扩展了该框架。潜变量神经过程 \(LNP\) 将每个上下文对通过编码器映射，聚合得到的特征形成有限维表示，该表示经识别网络产生潜变量分布，然后解码潜变量样本得到预测分布。在固定架构下，所有步骤的复杂度均为O\(n\)O\(n\)。当使用来自GP先验的样本进行训练时，LNP隐式地近似GP后验。

稀疏变分方法\(titsias2009sparse\)提供了一条扩展GP推断的途径，通过MM个诱导点将三次复杂度降低至O\(M2n\)O\(M^\{2\}n\)来总结后验。然而，得到的预测在测试时仍需要O\(M2\)O\(M^\{2\}\)计算，并且诱导位置必须与核超参数一起针对每个新数据集联合优化。在需要在许多相关任务中进行预测或面临实时约束的场景中，例如序贯实验设计\(shahriari2016taking\)、机器人学\(deisenroth2015gaussian\)或基于模拟的推断\(cranmer2020frontier\)，这种逐任务优化本身就成为了瓶颈。神经过程完全消除了逐任务优化，只需一次前向传播即可将任意上下文集映射到预测分布，复杂度为O\(n\)O\(n\)，无需矩阵求逆，也无需任务特定参数。这种摊销特性是其实际吸引力的来源，但也引入了稀疏GP框架中没有的近似代价。

已知这种近似会引入误差，因为LNP背后的变分推断倾向于低估不确定性，并且有限维瓶颈无法捕捉任意的上下文几何结构。然而，这些误差的量化表征尚不存在。foong2020meta指出了均值聚合的定性局限性，表明它会导致欠拟合，但未提供速率。人们在选择表示维度、编码器架构和方差参数化时缺乏关于逼近质量的正式指导。在稀疏GP文献中，burt2020convergence给出了稀疏变分后验与精确GP后验之间KL散度的界，表明对于平方指数核，M=O\(\(log⁡N\)dx\)M=O\(\(\\log N\)^\{d\_\{x\}\}\)个诱导点就足够了。我们的瓶颈分析对神经过程起到了类似的作用，用表示维度dd替代了诱导点数量MM。

我们提供了这样一种表征。我们的主要贡献是：\(i\) 将预测KL散度KL\(pGP∥pLNP\)\\mathrm\{KL\}\(p\_\{\\mathrm\{GP\}\}\\\|p\_\{\\mathrm\{LNP\}\}\)分解为三个具有不同架构和统计来源的项；\(ii\) 给出了瓶颈项中截断分量的上界，该上界对于SE核随dd指数衰减，对于Matérn核多项式衰减，将表示维度与核光滑性联系起来；\(iii\) 将标签污染项表征为O\(1\)\+O\(1/n\)O\(1\)\+O\(1/n\)，揭示了神经过程估计预测方差时的一种结构性失配；以及 \(iv\) 提出两个架构建议：在GP摊销场景中仅从位置预测方差，并使用二阶聚合而非均值聚合。

## 2 设定

### 2.1 高斯过程

令f∼GP\(0,k\)f\\sim\\mathcal\{GP\}\(0,k\)为一个零均值GP，其核为k:X×X→Rk:\\mathcal\{X\}\\times\\mathcal\{X\}\\to\\mathbb\{R\}，定义在紧致域X⊂Rdx\\mathcal\{X\}\\subset\\mathbb\{R\}^\{d\_\{x\}\}上。给定上下文C=\{\(xi,yi\)\}i=1nC=\\\{\(x\_\{i\},y\_\{i\}\)\\\}\_\{i=1\}^\{n\}，其中yi=f\(xi\)\+εiy\_\{i\}=f\(x\_\{i\}\)\+\\epsilon\_\{i\}，εi∼N\(0,σε2\)\\epsilon\_\{i\}\\sim\\mathcal\{N\}\(0,\\sigma\_\{\\epsilon\}^\{2\}\)，则目标点x∗x\_\{\*\}处的GP预测为：

pGP\(y∗∣x∗,C\)=N\(μGP,σGP2\)p\_\{\\mathrm\{GP\}\}\(y\_\{\*\}\\mid x\_\{\*\},C\)=\\mathcal\{N\}\(\\mu\_\{\\mathrm\{GP\}\},\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\) \(1\)其中

μGP\\displaystyle\\mu\_\{\\mathrm\{GP\}\}=k∗⊤\(K\+σε2I\)−1y,y=\(y1,...,yn\)⊤\\displaystyle=\\bm\{k\}\_\{\*\}^\{\\top\}\(K\+\\sigma\_\{\\epsilon\}^\{2\}I\)^\{\-1\}\\bm\{y\},\\quad\\bm\{y\}=\(y\_\{1\},\\dots,y\_\{n\}\)^\{\\top\}\) \(2\)σGP2\\displaystyle\\sigma^\{2\}\_\{\\mathrm\{GP\}\}=k\(x∗,x∗\)−k∗⊤\(K\+σε2I\)−1k∗,\\displaystyle=k\(x\_\{\*\},x\_\{\*\}\)\-\\bm\{k\}\_\{\*\}^\{\\top\}\(K\+\\sigma\_\{\\epsilon\}^\{2\}I\)^\{\-1\}\\bm\{k\}\_\{\*\},\) \(3\)其中\[k∗\]i=k\(x∗,xi\)\[\\bm\{k\}\_\{\*\}\]\_\{i\}=k\(x\_\{\*\},x\_\{i\}\)，\[K\]ij=k\(xi,xj\)\[K\]\_\{ij\}=k\(x\_\{i\},x\_\{j\}\)。

一个结构性性质是，GP预测方差 \(3 (https://arxiv.org/html/2605.21798#S2.E3)\) 取决于上下文位置X=\{xi\}X=\\\{x\_\{i\}\\\}，但不依赖于标签y\\bm\{y\}。

### 2.2 潜变量神经过程

###### 定义 1 \(潜变量神经过程\).

一个采用均值聚合的潜变量神经过程由以下部分组成：

1. 1. 编码器h:X×Y→Rdh:\\mathcal\{X\}\\times\\mathcal\{Y\}\\to\\mathbb\{R\}^\{d\}，将上下文对映射为表示。
2. 2. 均值聚合：rC=1n∑i=1nh\(xi,yi\)r\_\{C\}=\\frac\{1\}\{n\}\\sum\_\{i=1\}^\{n\}h\(x\_\{i\},y\_\{i\}\)。
3. 3. 潜变量编码器：q\(z∣C\)=N\(μz\(rC\),Σz\(rC\)\)q\(z\\mid C\)=\\mathcal\{N\}\(\\mu\_\{z\}\(r\_\{C\}\),\\Sigma\_\{z\}\(r\_\{C\}\)\)，其中z∈Rdzz\\in\\mathbb\{R\}^\{d\_\{z\}\}。
4. 4. 解码器：p\(y∗∣x∗,z\)=N\(w\(x∗\)⊤z\+b\(x∗\),σd2\)p\(y\_\{\*\}\\mid x\_\{\*\},z\)=\\mathcal\{N\}\(w\(x\_\{\*\}\)^\{\\top\}z\+b\(x\_\{\*\}\),\\sigma\_\{d\}^\{2\}\)。

映射μz:Rd→Rdz\\mu\_\{z\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\_\{z\}\}和Σz:Rd→R≻0dz×dz\\Sigma\_\{z\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\_\{z\}\\times d\_\{z\}\}\_\{\\succ 0\}通常是MLP，其中协方差输出通过Cholesky因子参数化以保证正定性。函数w:X→Rdzw:\\mathcal\{X\}\\to\\mathbb\{R\}^\{d\_\{z\}\}和b:X→Rb:\\mathcal\{X\}\\to\\mathbb\{R\}是学习得到的（通常由MLP参数化）关于目标位置的函数，而非网络权重和偏置。线性解码器（在zz上线性）是一种可处理性选择，能够产生闭式高斯后验p\(z∣C\)p\(z\\mid C\)，便于第3.3节 (https://arxiv.org/html/2605.21798#S3.SS3)中的摊销差距分析；标准NP使用非线性MLP解码器。如果不熟悉NP，请参见附录A (https://arxiv.org/html/2605.21798#A1)获取更全面的介绍。

边际预测是高斯分布：

pLNP\(y∗∣x∗,C\)\\displaystyle p\_\{\\mathrm\{LNP\}\}\(y\_\{\*\}\\mid x\_\{\*\},C\)=N\(μLNP,σLNP2\),\\displaystyle=\\mathcal\{N\}\(\\mu\_\{\\mathrm\{LNP\}\},\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\),\) \(4\)μLNP\\displaystyle\\mu\_\{\\mathrm\{LNP\}\}=w\(x∗\)⊤μz\(rC\)\+b\(x∗\),\\displaystyle=w\(x\_\{\*\}\)^\{\\top\}\\mu\_\{z\}\(r\_\{C\}\)\+b\(x\_\{\*\}\),\) \(5\)σLNP2\\displaystyle\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}=w\(x∗\)⊤Σz\(rC\)w\(x∗\)\+σd2。\\displaystyle=w\(x\_\{\*\}\)^\{\\top\}\\Sigma\_\{z\}\(r\_\{C\}\)\\,w\(x\_\{\*\}\)\+\\sigma\_\{d\}^\{2\}\。\) \(6\)
与 \(3 (https://arxiv.org/html/2605.21798#S2.E3)\) 不同，LNP方差 \(6 (https://arxiv.org/html/2605.21798#S2.E6)\) 依赖于rCr\_\{C\}，后者同时编码了上下文位置和标签。

### 2.3 预测KL散度

两个预测分布都是高斯分布，因此KL散度具有闭式形式：

KL\(pGP∥pLNP\)=12\[σGP2σLNP2−1\+\(μGP−μLNP\)2σLNP2\+log⁡σLNP2σGP2\]\\mathrm\{KL\}\(p\_\{\\mathrm\{GP\}\}\\\|p\_\{\\mathrm\{LNP\}\}\)=\\frac\{1\}\{2\}\\left\[\\frac\{\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\}\{\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\}\-1\+\\frac\{\(\\mu\_\{\\mathrm\{GP\}\}\-\\mu\_\{\\mathrm\{LNP\}\}\)^\{2\}\}\{\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\}\+\\log\\frac\{\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\}\{\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\}\\right\]\) \(7\)
我们对期望差距EC\[KL\(pGP∥pLNP\)\]\\mathbb\{E\}\_\{C\}\[\\mathrm\{KL\}\(p\_\{\\mathrm\{GP\}\}\\\|p\_\{\\mathrm\{LNP\}\}\)\]进行界定，其中期望是对从GP先验中抽取的上下文求取。

###### 假设 1.

存在常数0<σl2≤σu2<∞0<\\sigma\_\{\\ell\}^\{2\}\\leq\\sigma\_\{u\}^\{2\}<\\infty，使得对于所有上下文CC、位置XX和目标点x∗∈Xx\_\{\*\}\\in\\mathcal\{X\}，有σl2≤σLNP2\(x∗;C\)≤σu2\\sigma\_\{\\ell\}^\{2\}\\leq\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\(x\_\{\*\};C\)\\leq\\sigma\_\{u\}^\{2\}且σl2≤σGP2\(x∗;X\)≤σu2\\sigma\_\{\\ell\}^\{2\}\\leq\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\(x\_\{\*\};X\)\\leq\\sigma\_\{u\}^\{2\}。

## 3 方差误差的分解

方差差距是变分推断 \(VI\) 偏差的主要来源。我们将其分解为三个来源。定义方差误差为Δσ2=σLNP2−σGP2\\Delta\\sigma^\{2\}=\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\-\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\。

### 3.1 标签污染

GP方差σGP2\(x∗;X\)\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\(x\_\{\*\};X\)仅是上下文位置的函数。LNP方差σLNP2\(x∗;rC\)\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\(x\_\{\*\};r\_\{C\}\)通过rCr\_\{C\}依赖于标签。这种失配在方差估计中引入了噪声。

###### 假设 2.

编码器在yy上是仿射的：h\(x,y\)=φ\(x\)\+ψ\(x\)yh\(x,y\)=\\phi\(x\)\+\\psi\(x\)y，且存在正常数Bφ,BψB\_\{\\phi\},B\_\{\\psi\}使得对于所有x∈Xx\\in\\mathcal\{X\}，有‖φ\(x\)‖≤Bφ\\\|\\phi\(x\)\\\|\\leq B\_\{\\phi\}和‖ψ\(x\)‖≤Bψ\\\|\\psi\(x\)\\\|\\leq B\_\{\\psi\}。

在此假设下，表示分解为：

rC=1n∑i=1nφ\(xi\)⏟φ ̄X\+1n∑i=1nψ\(xi\)yi⏟δy。r\_\{C\}=\\underbrace\{\\frac\{1\}\{n\}\\sum\_\{i=1\}^\{n\}\\phi\(x\_\{i\}\)\}\_\{\\bar\{\\phi\}\_\{X\}\}\+\\underbrace\{\\frac\{1\}\{n\}\\sum\_\{i=1\}^\{n\}\\psi\(x\_\{i\}\)y\_\{i\}\}\_\{\\delta\_\{y\}\}\。\) \(8\)
第一项仅依赖于位置；第二项引入了标签依赖性。

###### 假设 3.

映射μz:Rd→Rdz\\mu\_\{z\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\_\{z\}\}和Σz:Rd→Rdz×dz\\Sigma\_\{z\}:\\mathbb\{R\}^\{d\}\\to\\mathbb\{R\}^\{d\_\{z\}\\times d\_\{z\}\}分别是LμL\_\{\\mu\}-Lipschitz和LΣL\_\{\\Sigma\}-Lipschitz的。解码器满足‖w\(x∗\)‖≤Bw\\\|w\(x\_\{\*\}\)\\\|\\leq B\_\{w\}。

###### 定理 1 \(标签污染界\).

在假设2 (https://arxiv.org/html/2605.21798#Thmassumption2)和假设3 (https://arxiv.org/html/2605.21798#Thmassumption3)下，对于从具有核kk和噪声方差σε2\\sigma\_\{\\epsilon\}^\{2\}的GP先验中抽取的上下文：

EC\[Vary\|X\[σLNP2\(x∗;C\)\]\]≤LΣ2Bw4Bψ2\(σε2n\+κk\)\\mathbb\{E\}\_\{C\}\\\!\\left\[\\mathrm\{Var\}\_\{\\bm\{y\}\|X\}\\\!\\left\[\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}\(x\_\{\*\};C\)\\right\]\\right\]\\leq L\_\{\\Sigma\}^\{2\}B\_\{w\}^\{4\}B\_\{\\psi\}^\{2\}\\\!\\left\(\\frac\{\\sigma\_\{\\epsilon\}^\{2\}\}\{n\}\+\\kappa\_\{k\}\\right\)\) \(9\)其中κk=supx∈Xk\(x,x\)\\kappa\_\{k\}=\\sup\_\{x\\in\\mathcal\{X\}\}k\(x,x\)界定了信号方差。第一项源于观测噪声，衰减为O\(1/n\)O\(1/n\)；第二项源于GP先验下的相关性，是O\(1\)O\(1\)阶的。

###### 证明思路。

将依赖于标签的分量分解为δy=δf\+δε\\delta\_\{y\}=\\delta\_\{f\}\+\\delta\_\{\\epsilon\}，其中δf=1n∑iψ\(xi\)f\(xi\)\\delta\_\{f\}=\\frac\{1\}\{n\}\\sum\_\{i\}\\psi\(x\_\{i\}\)f\(x\_\{i\}\)，δε=1n∑iψ\(xi\)εi\\delta\_\{\\epsilon\}=\\frac\{1\}\{n\}\\sum\_\{i\}\\psi\(x\_\{i\}\)\\epsilon\_\{i\}\)。噪声项是独立同分布的和，因此E\[‖δε‖2∣X\]≤Bψ2σε2/n\\mathbb\{E\}\[\\\|\\delta\_\{\\epsilon\}\\\|^\{2\}\\mid X\]\\leq B\_\{\\psi\}^\{2\}\\sigma\_\{\\epsilon\}^\{2\}/n。信号项的协方差为1n2∑i,jψ\(xi\)ψ\(xj\)⊤k\(xi,xj\)\\frac\{1\}\{n^\{2\}\}\\sum\_\{i,j\}\\psi\(x\_\{i\}\)\\psi\(x\_\{j\}\)^\{\\top\}k\(x\_\{i\},x\_\{j\}\)。由于kk是正定核且对角线上界为κk\\kappa\_\{k\}，行和界给出E\[‖δf‖2∣X\]≤Bψ2κk\\mathbb\{E\}\[\\\|\\delta\_\{f\}\\\|^\{2\}\\mid X\]\\leq B\_\{\\psi\}^\{2\}\\kappa\_\{k\}，这是O\(1\)O\(1\)阶的，因为GP相关的f\(xi\)f\(x\_\{i\}\)并不集中。然后通过Σz\\Sigma\_\{z\}的Lipschitz连续性将这些界转移到σLNP2\\sigma^\{2\}\_\{\\mathrm\{LNP\}\}。完整证明见第B.1节 (https://arxiv.org/html/2605.21798#A2.SS1)。∎

### 3.2 信息瓶颈

即使消除了标签依赖性（通过对y\\bm\{y\}取条件或将φ ̄X\\bar\{\\phi\}\_\{X\}作为表示），dd维的摘要φ ̄X\\bar\{\\phi\}\_\{X\}也无法捕获决定GP方差的完整上下文几何结构。222瓶颈误差的截断分量遵循标准的Mercer逼近理论。我们将其作为基准，用于衡量额外的NP特定代价（标签污染、摊销差距）。这些额外的代价在稀疏变分GP理论中没有类似物。

###### 定义 2 \(Mercer展开\).

设\{\(λj,ej\)\}j=1∞\\\{\(\\lambda\_\{j\},e\_\{j\}\)\\\}\_\{j=1\}^\{\\infty\}是核积分算子TkT\_\{k\}关于X\\mathcal\{X\}上的基测度μ\\mu（我们默认该测度与抽取上下文位置的分布一致）的特征分解：

k\(x,x′\)=∑j=1∞λjej\(x\)ej\(x′\)。k\(x,x^\{\\prime\}\)=\\sum\_\{j=1\}^\{\\infty\}\\lambda\_\{j\}\\,e\_\{j\}\(x\)\\,e\_\{j\}\(x^\{\\prime\}\)。\) \(10\)

###### 假设 4.

位置编码器使用前dd个核特征函数φ\(x\)=\(λ1e1\(x\),...,λded\(x\)\)⊤\\phi\(x\)=\(\\sqrt\{\\lambda\_\{1\}\}\\,e\_\{1\}\(x\),\\dots,\\sqrt\{\\lambda\_\{d\}\}\\,e\_\{d\}\(x\)\)^\{\\top\}。

这是在最小化核逼近的积分平方误差意义上最优的dd维编码器。均值表示变为φ ̄X=1n∑iφ\(xi\)\\bar\{\\phi\}\_\{X\}=\\frac\{1\}\{n\}\\sum\_\{i\}\\phi\(x\_\{i\}\)，它捕获了经验上下文度量在前dd个核特征函数上的投影。

###### 假设 5.

表示维度dd足够大，使得尾算子范数满足

η\(X\)=‖A−1/2KTA−1/2‖op<1，\\eta\(X\)\\;=\\;\\bigl\\\|A^\{\-1/2\}\\,K\_\{T\}\\,A^\{\-1/2\}\\bigr\\\|\_\{\\mathrm\{op\}\}\\;<\\;1，\) \(11\)其中A=KH\+σε2IA=K\_\{H\}\+\\sigma\_\{\\epsilon\}^\{2\}I，头核矩阵\[KH\]il=∑j≤dλjej\(xi\)ej\(xl\)\[K\_\{H\}\]\_\{il\}=\\sum\_\{j\\leq d\}\\lambda\_\{j\}\\,e\_\{j\}\(x\_\{i\}\)\\,e\_\{j\}\(x\_\{l\}\)，尾核矩阵\[KT\]il=∑j\>dλjej\(xi\)ej\(xl\)\[K\_\{T\}\]\_\{il\}=\\sum\_\{j\>d\}\\lambda\_\{j\}\\,e\_\{j\}\(x\_\{i\}\)\\,e\_\{j\}\(x\_\{l\}\)。

###### 定理 2 \(信息瓶颈界\).

在假设4 (https://arxiv.org/html/2605.21798#Thmassumption4)和假设5 (https://arxiv.org/html/2605.21798#Thmassumption5)下，对于目标点x∗x\_\{\*\}和从μ\\μ中独立同分布抽取的上下文位置X=\{xi\}i=1nX=\\\{x\_\{i\}\\\}\_\{i=1\}^\{n\}：

EX\[\(σGP2\(x∗;X\)−gd∗\(φ ̄X\)\)2\]≤Rd\(k,n\)\+Sd\(k,x∗\)，\\mathbb\{E\}\_\{X\}\\\!\\left\[\\left\(\\sigma^\{2\}\_\{\\mathrm\{GP\}\}\(x\_\{\*\};X\)\-g\_\{d\}^\{\*\}\(\\bar\{\\phi\}\_\{X\}\)\\right\)^\{2\}\\right\]\\leq R\_\{d\}\(k,n\)\+S\_\{d\}\(k,x\_\{\*\}\)，\) \(12\)其中gd∗g\_\{d\}^\{\*\}是从φ ̄X\\bar\{\\phi\}\_\{X\}估计σGP2\\sigma^\{2\}\_\{\\mathrm\{GP\}\}的最优估计器，且：

Rd\(k,n\)\\displaystyle R\_\{d\}\(k,n\)=O\(d2n\)\+Rdinfo，\\displaystyle=O\\\!\\left\(\\fr

神经过程摊销高斯过程推理的三个代价

相似文章

边界方差膨胀导致高斯过程中的采集偏差

序贯稀疏高斯过程分位数回归

草图线性对比学习：近似、优化与统计缩放

训练-推理内核合约：约束后训练与部署中的差异

面向低数据高维输出问题的Gaussian Process Latent Factor Regression

提交意见反馈