面向低数据高维输出问题的Gaussian Process Latent Factor Regression
摘要
提出了一种用于低数据高维输出问题的Gaussian process latent factor regression (GPLFR),并通过一个针对岩质系外行星的全球气候模型的空间分辨仿真器进行了演示。
arXiv:2606.06576v1 Announce Type: new
摘要:在科学领域中,回归任务通常需要从少量训练样本预测高维输出。多输出Gaussian processes在低数据场景下表现出色,但通常难以处理高维输出。先压缩后预测的流水线(如PCA-GP,即主成分分析加高斯过程回归)能够处理高维性,但依赖于针对重建而非预测优化的基函数。为了解决这一差距,我们提出了一种模型,将每个输出表示为从Gaussian process prior中抽取的低维潜在状态的线性高斯解码。通过解析地边缘化解码器权重,我们将压缩和预测耦合在一个可扩展至高维输出的单一目标中。我们将此模型称为Gaussian process latent factor regression (GPLFR)。我们通过构建首个针对岩质系外行星的全球气候模型的空间分辨仿真器来演示GPLFR。
查看缓存全文
缓存时间: 2026/06/08 09:17
# 高斯过程潜在因子回归用于低数据高维输出
来源:https://arxiv.org/html/2606.06576
埃里克·T·沃尔夫
科罗拉多大学博尔德分校
梅婷·麦克
牛津大学
N·J·梅恩
埃克塞特大学
迈尔斯·克兰默
剑桥大学
###### 摘要
在科学领域中,回归任务常常需要从少量训练样本预测高维输出。多输出高斯过程在低数据场景下表现出色,但通常难以处理高维输出。诸如 PCA-GP(主成分分析加高斯过程回归)的“先压缩后预测”流程可处理高维性,但其基函数针对重构而非预测进行优化。为填补这一空白,我们提出一种模型,将每个输出表示为从高斯过程先验中抽取的低维潜在状态的线性-高斯解码。通过解析地边缘化解码器权重,我们将压缩和预测结合到单个可扩展至高维输出的目标函数中。我们将此模型称为高斯过程潜在因子回归(GPLFR)。我们通过构建首个针对岩石系外行星全球气候模型的空间分辨仿真器来展示 GPLFR。
## 1 引言
多输出回归可围绕两个广泛的建模问题展开:输出y\mathbf{y}的条目之间如何相互关联,以及输入空间位置x\mathbf{x}如何决定样本之间的相似性?在数据有限的情况下,这两个问题会竞争建模能力。当输出异质或稀疏观测时,跨输出共享信息至关重要,建模能力应流向输出协方差。当输出具有高维且结构化时,丰富的输出协方差难以辨识,而约束压缩潜在表示的信息更多:每个训练样本提供多个输出维度作为同一潜在状态的重复“视图”;此时能力应流向学习x\mathbf{x}上的相似性结构。
大多数多输出GP(MOGP;地质统计学中的“协同克里金法”)通过学习显式耦合结构来优先跨输出共享信息,同时使用共享输入核控制x\mathbf{x}上的泛化。例如,流行的*线性协同区域化模型*(LMC)风格的MOGP通过共享潜在GP的线性混合来编码输出协方差(参见Alvarez等人,2012 (https://arxiv.org/html/2606.06576#bib.bib1)的综述)。潜在变量MOGP(LV-MOGP)通过在每个输出潜在嵌入上定义核来定义*输出*之间的相似性,而不是直接参数化协同区域化矩阵(Dai等人,[2017 (https://arxiv.org/html/2606.06576#bib.bib7)])。这一思路的其他方法包括高阶高斯过程回归(Zhe等人,[2019 (https://arxiv.org/html/2606.06576#bib.bib36)]),它通过学习张量化输出空间中的潜在坐标特征(使用Kronecker推理)来建模输出相关性,以及高斯过程回归网络(Wilson等人,[2011 (https://arxiv.org/html/2606.06576#bib.bib30),Li等人,2020 (https://arxiv.org/html/2606.06576#bib.bib19)]),它将解码器权重推广为输入相关的GP函数。尽管近期工作将这些方法扩展到更高的输出维度DyD_y(例如,Bruinsma等人,2020 (https://arxiv.org/html/2606.06576#bib.bib4)将LMC变体扩展到Dy∼103D_y\sim 10^3,Jiang等人,2025 (https://arxiv.org/html/2606.06576#bib.bib14)将LV-MOGP扩展到Dy∼103–104D_y\sim 10^3\text{--}10^4),它们仍然不适合瓶颈在于学习输入空间结构而非丰富输出耦合的问题。
标准的替代方法是将问题解耦为两个阶段:首先仅从输出学习一个基函数(通常通过PCA),然后将得到的系数对x\mathbf{x}进行回归(Hutchings等人,[2025 (https://arxiv.org/html/2606.06576#bib.bib12),Holden等人,2015 (https://arxiv.org/html/2606.06576#bib.bib11),Higdon等人,2008 (https://arxiv.org/html/2606.06576#bib.bib10),Rougier,2008 (https://arxiv.org/html/2606.06576#bib.bib25)])。虽然这种“先压缩后预测”方法能处理高DyD_y,但其基函数针对输出重构而非输入可预测性进行优化。在本工作中,我们通过联合学习压缩和回归来避免这种不匹配,且可扩展到高DyD_y。111我们在附录A (https://arxiv.org/html/2606.06576#A1)中讨论相邻的任务感知表示学习方法。具体而言,我们提出的模型——高斯过程潜在因子回归(GPLFR)——推断的潜在变量同时受到x\mathbf{x}上的GP先验和通过线性解码器对y\mathbf{y}的重构的约束。
ℓq\boldsymbol{\ell}_q
ηq\eta_q
zi(q)z_i^{(q)}
xi\mathbf{x}_i
yi\mathbf{y}_i
B\mathbf{B}
W\mathbf{W}
σ\sigma
q=1,...,Dzq=1,...,D_z
i=1,...,Ni=1,...,N
变量:
xi∈RDx\mathbf{x}_i\in\mathbb{R}^{D_x}:输入
yi∈RDy\mathbf{y}_i\in\mathbb{R}^{D_y}:输出
ℓq∈R+Dx\boldsymbol{\ell}_q\in\mathbb{R}_+^{D_x}:核长度尺度
ηq∈R+\eta_q\in\mathbb{R}_+:核振幅
zi(q)∈Rz_i^{(q)}\in\mathbb{R}:潜在变量
W∈RDy×Dz\mathbf{W}\in\mathbb{R}^{D_y\times D_z}:解码器权重
σ∈R+\sigma\in\mathbb{R}_+:观测噪声
B∈RDy×Dy\mathbf{B}\in\mathbb{R}^{D_y\times D_y}:输出协同区域化矩阵
图1:GPLFR的概率图模型。阴影节点为观测变量。
尽管GPLFR的实际动机是提供“先压缩后预测”流程(主要是PCA-GP)的端到端替代方案,但其数学结构通过其与LMC的关系最为清晰。我们在第2节 (https://arxiv.org/html/2606.06576#S2)和第3节 (https://arxiv.org/html/2606.06576#S3)中发展这些联系,然后在第4节 (https://arxiv.org/html/2606.06576#S4)中将GPLFR与PCA-GP及其他基线方法在合成基准和两个科学仿真任务(一个涉及生物医学光学,另一个是原本激发本工作的系外行星气候问题)上进行对比。代码可在https://github.com/edstevenson/GPLFR获取。
## 2 GPLFR与线性协同区域化模型(LMC)
我们将LMC作为统一视角,因为GPLFR和LMC可以从相同的线性-高斯潜在因子模型推导而来,但对应于不同的边缘化。具体而言,边缘化潜在因子得到LMC先验,而边缘化解码器权重得到GPLFR的折叠似然,用于联合表示学习和回归。这一视角也阐明了引言中强调的建模选择:GPLFR通常保持任何显式输出耦合(即,除潜在因子诱导的输出耦合之外的任何输出耦合)简单,并将建模能力集中在学习x\mathbf{x}上有用的相似性结构上。图1 (https://arxiv.org/html/2606.06576#S1.F1)展示了GPLFR的概率图模型。完整的模型说明见附录B (https://arxiv.org/html/2606.06576#A2)。
##### 记号。
我们考虑从DxD_x维输入到DyD_y维结构化输出,具有NN个训练样本的回归问题。设X∈RN×Dx\mathbf{X}\in\mathbb{R}^{N\times D_x}为训练输入,Y∈RN×Dy\mathbf{Y}\in\mathbb{R}^{N\times D_y}为相应输出。GPLFR为每个样本引入Dz≪DyD_z\ll D_y个潜在变量,收集为Z∈RN×Dz\mathbf{Z}\in\mathbb{R}^{N\times D_z},以及一个线性解码器W∈RDy×Dz\mathbf{W}\in\mathbb{R}^{D_y\times D_z}。我们将K(X,X)∈RN×N\mathbf{K}(\mathbf{X},\mathbf{X})\in\mathbb{R}^{N\times N}记为核矩阵,σ2\sigma^2为观测噪声方差。
### 2.1 LMC
LMC是一个非常通用的多输出GP类,它将输出协方差分解为Kronecker积的和,每个积将一个输入核Kq∈RN×N\mathbf{K}_q\in\mathbb{R}^{N\times N}与一个*协同区域化*矩阵Bq∈RDy×Dy\mathbf{B}_q\in\mathbb{R}^{D_y\times D_y}配对:
Cov(vec(Y))=∑q=1QBq⊗Kq+σ2INDy,\mathrm{Cov}(\mathrm{vec}(\mathbf{Y}))=\sum_{q=1}^Q\mathbf{B}_q\otimes\mathbf{K}_q+\sigma^2\mathbf{I}_{ND_y}, (1)
其中vec(⋅)\mathrm{vec}(\cdot)按列堆叠。一种推导方式来自潜在GP函数的线性混合:对于每个分量qq,从共享核kqk_q中抽取DqD_q个独立潜在函数,并用矩阵Aq∈RDy×Dq\mathbf{A}_q\in\mathbb{R}^{D_y\times D_q}将它们混合到输出中。则Bq=AqAq⊤⪰0\mathbf{B}_q=\mathbf{A}_q\mathbf{A}_q^\top\succeq 0,且秩≤Dq\leq D_q。*固有协同区域化模型*(ICM)是Kq=K\mathbf{K}_q=\mathbf{K}对所有qq成立的特殊情况:
Cov(vec(Y))=B⊗K+σ2INDy.\begin{split}\mathrm{Cov}(\mathrm{vec}(\mathbf{Y}))&=\mathbf{B}\otimes\mathbf{K}+\sigma^2\mathbf{I}_{ND_y}.\end{split} (2)
### 2.2 GPLFR与LMC作为同一联合模型的两种边缘化
我们可以从它们共享的假设数据生成过程看出GPLFR与LMC之间的关系。将潜在空间划分为QQ组,维度为{Dq}q=1Q\{D_q\}_{q=1}^Q,满足∑qDq=Dz\sum_q D_q=D_z。设Zq∈RN×Dq\mathbf{Z}_q\in\mathbb{R}^{N\times D_q}和Wq∈RDy×Dq\mathbf{W}_q\in\mathbb{R}^{D_y\times D_q},并定义Z=[Z1...ZQ]\mathbf{Z}=\begin{bmatrix}\mathbf{Z}_1&\dots&\mathbf{Z}_Q\end{bmatrix}和W=[W1...WQ]\mathbf{W}=\begin{bmatrix}\mathbf{W}_1&\dots&\mathbf{W}_Q\end{bmatrix}。数据生成过程从X\mathbf{X}上的独立GP先验中抽取潜在分量,然后通过线性-高斯解码器映射:
**潜在GP先验:**
vec(Zq)∣X∼N(0,IDq⊗Kq)\displaystyle\textbf{Latent GP priors:}\quad\mathrm{vec}(\mathbf{Z}_q)\mid\mathbf{X}\sim\mathcal{N}\!\left(\mathbf{0},\mathbf{I}_{D_q}\otimes\mathbf{K}_q\right)
对于q=1,...,Q,\displaystyle\qquad\qquad\qquad\qquad\;\;\,\text{for }q=1,\dots,Q,
**解码器:**
Y=∑q=1QZqWq⊤+E,Eij∼N(0,σ2).\displaystyle\textbf{Decoder:}\quad\mathbf{Y}=\sum_{q=1}^Q\mathbf{Z}_q\mathbf{W}_q^\top+\mathbf{E},\quad E_{ij}\sim\mathcal{N}(0,\sigma^2).
如果我们边缘化Z\mathbf{Z},则得到
p(vec(Y)∣{Wq}q,σ,X)\displaystyle p(\mathrm{vec}(\mathbf{Y})\mid\{\mathbf{W}_q\}_q,\sigma,\mathbf{X})
=∫p(vec(Y)∣{Zq}q,{Wq}q,σ)∏qp(Zq∣X)dZ\displaystyle=\int p(\mathrm{vec}(\mathbf{Y})\mid\{\mathbf{Z}_q\}_q,\{\mathbf{W}_q\}_q,\sigma)\prod_q p(\mathbf{Z}_q\mid\mathbf{X})\,d\mathbf{Z}
=N(vec(Y);0,CLMC),\displaystyle=\mathcal{N}\!\left(\mathrm{vec}(\mathbf{Y});0,\mathbf{C}_{\text{LMC}}\right),
其中
CLMC=[∑q(WqWq⊤)⊗Kq]+σ2INDy.\mathbf{C}_{\text{LMC}}=\left[\sum_q(\mathbf{W}_q\mathbf{W}_q^\top)\otimes\mathbf{K}_q\right]+\sigma^2\mathbf{I}_{ND_y}. (3)
这正是具有Bq=WqWq⊤\mathbf{B}_q=\mathbf{W}_q\mathbf{W}_q^\top的LMC GP (1 (https://arxiv.org/html/2606.06576#S2.E1))。
在GPLFR中,我们改为边缘化W\mathbf{W}。为此,我们对分量解码器设置独立的矩阵正态先验:对每个qq,Wq∼MN(0,B,IDq)\mathbf{W}_q\sim\mathcal{MN}(0,\mathbf{B},\mathbf{I}_{D_q})。则
p(vec(Y)∣{Zq}q,σ)\displaystyle p(\mathrm{vec}(\mathbf{Y})\mid\{\mathbf{Z}_q\}_q,\sigma)
=∫p(vec(Y)∣{Zq}q,{Wq}q,σ)∏qp(Wq)dW\displaystyle=\int p(\mathrm{vec}(\mathbf{Y})\mid\{\mathbf{Z}_q\}_q,\{\mathbf{W}_q\}_q,\sigma)\,\prod_q p(\mathbf{W}_q)\,d\mathbf{W}
=N(vec(Y);0,C),\displaystyle=\mathcal{N}\!\left(\mathrm{vec}(\mathbf{Y});0,\mathbf{C}\right),
其中
C=B⊗[∑qZqZq⊤]+σ2INDy.\mathbf{C}=\mathbf{B}\otimes\left[\sum_q\mathbf{Z}_q\mathbf{Z}_q^\top\right]+\sigma^2\mathbf{I}_{ND_y}. (4)
222这也可以解释为在Z\mathbf{Z}条件下的ICM协方差 (2 (https://arxiv.org/html/2606.06576#S2.E2)),其中B\mathbf{B}是协同区域化矩阵,点估计下的有效输入侧核为∑qZqZq⊤\sum_q\mathbf{Z}_q\mathbf{Z}_q^\top。
从这个视角看,GPLFR和LMC被视为同一底层分解的不同边缘化。这与用于启发GPLVM的Lawrence [2005 (https://arxiv.org/html/2606.06576#bib.bib18)]中的概率PCA的*原始*和*对偶*观点类似。然而,需要注意的是,虽然原始和对偶视图在概率PCA的情况下是*等价的*(它们恢复相同的边缘模型),但在回归背景下,GPLFR/LMC(Z\mathbf{Z}通过GP先验与X\mathbf{X}关联)立即将它们分为不同的模型类别。333除退化情况外,例如,如果我们将GPLFR的潜在表示限制为输入的确定性特征映射Zq=Φq(X)\mathbf{Z}_q=\boldsymbol{\Phi}_q(\mathbf{X}),则我们得到具有输入核kq(x,x′;Φ)=φq(x)⊤Tqφq(x′)k_q(\mathbf{x},\mathbf{x}'; \boldsymbol{\Phi})=\boldsymbol{\phi}_q(\mathbf{x})^\top\mathbf{T}_q\boldsymbol{\phi}_q(\mathbf{x}')的普通LMC先验。
## 3 GPLFR:正则化与PCA-GP的联系
### 3.1 输出协同区域化与似然退火
在GPLFR针对的高维、低数据场景中,估计一个丰富的协同区域化矩阵B\mathbf{B}在统计上不可靠。因此,我们只能对B\mathbf{B}进行简单的参数化,依赖潜在几何结构捕获大部分输出相关性。在实践中,这意味着设置B=I\mathbf{B}=\mathbf{I}(我们贯穿本文均如此),除非输出结构允许清晰的低维参数化(如系外行星气候实验所示)。当真实输出相关性包含潜在几何结构或B\mathbf{B}的低维参数化未能捕获的结构变化时,任何此类简化都是模型误指定。为防止似然过度强调每个输出维度的信息量,我们使用逆温度β∈(0,1]\beta\in(0,1]对其进行退火;详细内容和理由见附录B.4 (https://arxiv.org/html/2606.06576#A2.SS4)。
### 3.2 GPLFR与PCA-GP
从应用角度来看,GPLFR最自然地与PCA-GP(标准的高维输出有限数据“先压缩后预测”流程,见附录C (https://arxiv.org/html/2606.06576#A3)回顾)进行比较。两种方法都假设输出具有精确的低秩表示,并使用GP先验拟合输入到潜在变量的映射,但它们在该表示是*独立于输入*学习还是*联合*回归任务学习上有所不同。PCA选择基函数以保留最大输出协方差Cov(相似文章
神经过程摊销高斯过程推理的三个代价
本文将对高斯过程和潜在神经过程后验之间的预测KL散度分解为三项,提供了刻画近似误差的上界,并将表示维度与核平滑度联系起来。
使用子采样马尔可夫链蒙特卡罗的潜变量模型大规模不确定性量化
本文针对SGLD-Gibbs发展了标度极限理论,为大规模潜变量模型中实现有意义的不确定性量化提供原则性的超参数调优指导。
最小作用量引导的物理外推扩散
提出LAPG,一种由最小作用量原理引导的扩散框架,旨在提高物理外推任务推理过程中的物理一致性。
不知道你的数据来自哪里?用于未知坐标的贝叶斯建模
本文以沃克湖的铀和钒浓度数据集为例,说明了如何使用高斯过程(Gaussian processes)的贝叶斯建模来处理坐标存在观测误差的空间数据。
超越因子聚合:面向联邦 LoRA 的规范感知低秩服务器表示
本文介绍了 GLoRA,这是一种面向联邦 LoRA 的规范感知服务器表示,旨在通过估计共识更新子空间来解决因子聚合中的语义不匹配问题。实验表明,在异构客户端场景下,GLoRA 在性能和效率方面均优于基线方法。