Patch-PODiff-ViT: 基于分块POD的结构化潜在扩散模型,用于超分辨率和不确定性量化
摘要
Patch-PODiff-ViT 引入了一种结构化潜在扩散框架,利用分块本征正交分解 (POD) 实现超分辨率和不确定性量化,通过固定的线性正交基和预测方差的解析传播实现高效扩散。
arXiv:2606.31290v1 公告类型: 新
摘要: 扩散模型支持概率超分辨率和条件生成,但像素空间方法计算成本高,且学习到的潜在空间通常缺乏可解释的不确定性量化。我们提出了 Patch-PODiff-ViT,一种结构化潜在扩散框架,其中潜在空间由分块本征正交分解 (POD) 定义,即局部块上的固定线性正交基,而非通过非线性自编码器学习。这产生了低维、方差排序的令牌,保留了空间结构,并使得在结构化低维潜在空间中结合视觉变换器进行高效扩散成为可能。由于解码器是固定的、线性的且正交的,潜在系数不确定性可以直接传播到物理空间的预测方差,从而通过线性解码器实现预测方差的解析传播,无需在像素空间中进行蒙特卡罗估计。在海表温度、医学成像和自然图像上,该方法以更少的参数和更低的内存实现强重建,同时生成与经验集成密切匹配的校准良好的空间不确定性。
查看缓存全文
缓存时间: 2026/07/01 05:35
# Patch-PODiff-ViT:基于分块POD的结构化潜空间扩散,用于超分辨率与不确定性量化
来源:https://arxiv.org/html/2606.31290
Onkar Jadhav
地球与海洋学院,UWA海洋研究所
西澳大利亚大学,克劳利,WA,澳大利亚
onkar\.jadhav@uwa\.edu\.au
Tim French
物理、数学与计算学院,计算机科学与软件工程系
西澳大利亚大学,克劳利,WA,澳大利亚
Matthew Rayson
地球与海洋学院,UWA海洋研究所
西澳大利亚大学,克劳利,WA,澳大利亚
Nicole L\. Jones
地球与海洋学院,UWA海洋研究所
西澳大利亚大学,克劳利,WA,澳大利亚
###### 摘要
扩散模型能够实现概率超分辨率与条件生成,但像素空间方法计算成本高昂,且学习到的潜空间常缺乏可解释的不确定性量化。我们提出 Patch-PODiff-ViT,一种结构化潜空间扩散框架,其潜空间由分块 Proper Orthogonal Decomposition (POD) (一种在局部分块上固定的线性正交基) 定义,而非通过非线性自编码器学习。这产生了低维、按方差排序的令牌,保留了空间结构,并能在结构化的低维潜空间中结合 Vision Transformer 实现高效扩散。由于解码器是固定、线性且正交的,潜系数的不确定性可直接传播到物理空间的预测方差,从而通过线性解码器实现预测方差的解析传播,无需在像素空间进行蒙特卡洛估计。在海面温度、医学影像和自然图像上,该方法以更少的参数和更低的内存实现强重建,同时产生校准良好的空间不确定性,与经验集成紧密匹配。
## 1 引言
高分辨率空间场广泛出现在各类应用中,包括气候建模 (Price et al.,2023 (https://arxiv.org/html/2606.31290#bib.bib19); Watt and Mansfield,2024 (https://arxiv.org/html/2606.31290#bib.bib33); Jadhav et al.,2025 (https://arxiv.org/html/2606.31290#bib.bib61))、医学影像 (Moser et al.,2024 (https://arxiv.org/html/2606.31290#bib.bib41)) 和自然图像生成 (Rombach et al.,2022 (https://arxiv.org/html/2606.31290#bib.bib39))。虽然现代流程能以规模化方式提供粗观测,但解析精细尺度空间结构在计算上仍十分昂贵。超分辨率方法应对了这一挑战 (Leinonen et al.,2020 (https://arxiv.org/html/2606.31290#bib.bib20); Stengel et al.,2020 (https://arxiv.org/html/2606.31290#bib.bib21); Saharia et al.,2022 (https://arxiv.org/html/2606.31290#bib.bib40); Leinonen et al.,2023 (https://arxiv.org/html/2606.31290#bib.bib45)),但仅靠准确重建往往不够。可靠的不确定性量化对于下游决策至关重要,特别是在存在尖锐梯度、局部极值和观测不完整的场景中。
基于扩散的模型 (Ho et al.,2020 (https://arxiv.org/html/2606.31290#bib.bib9); Song et al.,2021b (https://arxiv.org/html/2606.31290#bib.bib10)) 为概率超分辨率和条件生成 (Saharia et al.,2022 (https://arxiv.org/html/2606.31290#bib.bib40)) 提供了强大框架,能够产生高保真样本,并支持基于集成的不确定性估计。然而,在像素空间操作在高分辨率下计算成本极高,导致模型体积大、内存占用高、采样速度慢,使得集成生成在实践中代价高昂 (Ho et al.,2020 (https://arxiv.org/html/2606.31290#bib.bib9))。潜扩散模型通过在自编码器学习到的低维空间中操作来缓解这一成本 (Rombach et al.,2022 (https://arxiv.org/html/2606.31290#bib.bib39); Vahdat et al.,2021 (https://arxiv.org/html/2606.31290#bib.bib15))。虽然对自然图像有效,但这些潜表示通常是非线性的,且缺乏与空间结构的直接对应关系,使得不确定性向物理空间预测方差的传播缺乏可解释性 (Böhm et al.,2019 (https://arxiv.org/html/2606.31290#bib.bib58)),限制了其在注重结构和可解释性场景中的适用性。
相比之下,许多空间场表现出强烈的局部结构,可使用线性降阶方法 (如 Proper Orthogonal Decomposition (POD)) (Sirovich,1987 (https://arxiv.org/html/2606.31290#bib.bib43); Berkooz et al.,1993 (https://arxiv.org/html/2606.31290#bib.bib42); Benner et al.,2015 (https://arxiv.org/html/2606.31290#bib.bib25)) 高效表示。POD 生成一个正交、按方差排序的基,捕捉主导空间模式,并定义了一个几何上有意义的潜空间,其中系数对应渐进的尺度。重要的是,这种结构在局部层面往往更为显著:单个 `p×p` 分块可用比全场少得多的模态表示,同时保留相同方差,从而实现大幅压缩。这种局部结构不局限于物理系统,在医学和自然图像中也常见,尤其是在分块层面。
尽管 POD 在科学计算中广泛使用 (Coscia et al.,2024 (https://arxiv.org/html/2606.31290#bib.bib35); Du et al.,2024 (https://arxiv.org/html/2606.31290#bib.bib48)),但它作为扩散生成建模的结构化潜空间仍未被充分探索。虽然它提供了潜系数与空间场之间的线性可解释映射,但这种结构尚未被充分利用以实现高效且原则性的不确定性传播。
在本工作中,我们提出 Patch-PODiff-ViT,这是 PODiff (Jadhav et al.,2026 (https://arxiv.org/html/2606.31290#bib.bib60)) 的扩展,一个在由分块 POD 表示定义的结构化潜空间中运行的条件扩散框架。我们不学习潜空间,而是在局部分块上构造一个固定的、按方差排序的基,产生低维令牌,保留空间局部性和尺度分离。扩散在这些令牌上使用 Vision Transformer 降噪器执行,实现全局空间推理并提高效率。至关重要的是,线性的 POD 结构允许潜空间中的预测不确定性解析地传播到物理域,为显式全分辨率协方差估计提供了易处理且可解释的替代方案,而无需额外的学习组件。该公式连接了降阶建模和生成建模,表明结构化线性表示与表达性降噪器相结合可实现高效且可解释的概率推理。与像素空间扩散不同,它能以更低计算成本扩展到高分辨率场;与学习到的潜扩散不同,它保留了潜变量与空间统计之间的直接且易处理的联系。
我们在三个领域上评估该方法:海面温度 (SST) 降尺度、医学图像超分辨率和自然图像重建。在所有数据集上,Patch-PODiff-ViT 以更少的参数和更低的内存实现了强重建性能,同时产生了校准良好、空间上有意义的不确定性估计,与经验集成统计量紧密匹配。
##### 贡献。本文做出四项贡献:(i) 我们提出 Patch-PODiff-ViT,一种使用分块 POD 和基于 Transformer 的降噪的结构化潜扩散框架。(ii) 我们提供理论基础:命题 1 (https://arxiv.org/html/2606.31290#Thmproposition1) 界定了方差截断下的重建误差,命题 2 (https://arxiv.org/html/2606.31290#Thmproposition2) 允许在块对角近似下将潜不确定性解析传播到像素空间。(iii) 我们通过低维结构化潜表示展示了计算效率的提升。(iv) 我们在地球物理、医学和自然图像数据集上验证了该方法,实现了强重建和良好校准的不确定性。
## 2 方法
Patch-PODiff-ViT 在由分块 POD 定义的结构化潜空间中进行条件生成建模,将场从 `H×W` 像素缩减为 `P×K` 个潜令牌 (图 1 (https://arxiv.org/html/2606.31290#S2.F1))。每幅图像被分解为 `P` 个分块,投影到共享的 POD 基 `Φ` 上,并由 Vision Transformer 在令牌空间中进行降噪。对于超分辨率,条件和目标场被编码在相同的潜空间中。推理时,降噪后的系数通过 `û_p = ū + Φ â_p` 线性解码,并拼接以重建场,从而实现通过 POD 解码器的解析不确定性传播。
### 2.1 分块 POD 表示
令 `{u_i}_{i=1}^N` 表示一组高分辨率训练场,其中 `u_i ∈ ℝ^{H×W×C}`。每个场被分解为大小为 `p×p` 的分块,以步长 `r ≤ p` 提取,得到 `u_i = {u_i,p}_{p=1}^P, u_i,p ∈ ℝ^s, s = C·p^2`,其中 `P` 表示每个场的分块数。当 `r=p` 时分块不重叠;当 `r<p` 时它们重叠。分块大小 `p` 被视为超参数,其对重建质量和谱效率的影响在附录 I (https://arxiv.org/html/2606.31290#A9) 中研究。对于单通道数据集,`C=1`。
我们通过汇集所有训练分块并计算中心化分块矩阵的经济型 SVD 来构建全局 POD 基。前 `K` 个奇异向量构成正交基 `Φ ∈ ℝ^{s×K}`,奇异值为 `σ₁ ≥ ... ≥ σ_K ≥ 0`。我们选择截断水平 `K` 以满足能量准则:
`∑_{k=1}^K σ_k² / ∑_{k=1}^s σ_k² ≥ η, η=0.99` (1)
该选择由命题 1 支持,它表明期望重建误差以总块方差的 `(1-η)` 为界。共享分块基保持令牌维度固定,并通过汇集局部分块提高统计效率。
##### 潜编码。令 `ū` 表示全局分块均值。每个分块编码为 `a_i,p = Φ⊤(u_i,p - ū) ∈ ℝ^K`。为跨模态归一化方差,我们按模态标准化系数:`ã_i,p = Λ^{-1/2} a_i,p, Λ = diag(σ₁², ..., σ_K²)`。POD 编码器是固定且无参数的。特别地,训练期间没有梯度通过它。
### 2.2 分块令牌上的潜扩散
##### 令牌序列。我们将每个场 `u_i` 表示为 `P` 个潜令牌的序列:`Ã_i = [ã_i,1, ..., ã_i,P] ∈ ℝ^{P×K}`。总潜维度 `P×K` 远小于像素空间维度 `H×W`,从而能够在场的完整空间范围上进行高效扩散。
##### 前向过程。我们将前向扩散过程定义为:
`q(Ã_t | Ã_0) = N(√ᾱ_t Ã_0, (1-ᾱ_t)I)` (2)
其中 `ᾱ_t = ∏_{j=1}^t α_j` 遵循余弦噪声调度 (Nichol and Dhariwal 2021 (https://arxiv.org/html/2606.31290#bib.bib12)),步数 `T=1,000` (Ho et al. 2020 (https://arxiv.org/html/2606.31290#bib.bib9))。
##### 训练目标。我们训练降噪网络 `ε_θ` 以预测注入的噪声:
`L(θ) = E_{Ã_0, t, ε} [ ||ε - ε_θ(Ã_t, C, t)||₂² ]` (3)
其中 `C` 表示源自低分辨率输入的条件信号 (第 2.3 节),`t ~ Uniform({1,...,T})`。
### 2.3 低分辨率输入的条件
对于超分辨率,我们通过双三次插值上采样低分辨率输入 `x^LR`:`x^up = U(x^LR) ∈ ℝ^{H×W}`,并使用与高分辨率场相同的分块-POD 流程进行编码,得到条件令牌序列 `C ∈ ℝ^{P×K}`。将 HR 和 LR 场编码在相同潜空间中,使降噪器能够学习系数空间中的结构化残差。每个令牌 `c_p` 表示位置 `p` 上采样 LR 分块的 POD 系数,提供空间对齐的条件。
我们应用令牌级加性条件:将噪声 HR 令牌和 LR 令牌投影到 `d_model` 维度,并组合为:
`h_p = W_in ã_t,p + W_cond c_p` (4)
得到融合令牌 `H ∈ ℝ^{P×d_model}`。这里 `W_in` 和 `W_cond` 是 `ℝ^{d_model×K}` 中可学习的投影矩阵。加性条件确保令牌对齐并保留局部性。
### 2.4 Vision Transformer 降噪架构
降噪网络是一个 Vision Transformer,操作在令牌序列 `H ∈ ℝ^{P×d_model}` 上。令牌被添加二维位置嵌入,并由 `L` 个 Transformer 块处理,包含多头自注意力、MLP 层和时序条件自适应层归一化 (Peebles and Xie,2023 (https://arxiv.org/html/2606.31290#bib.bib52))。线性头预测噪声 `ε̂ ∈ ℝ^{P×K}`。
### 2.5 重建与不确定性量化
推理时,使用 DDIM (Song et al.,2021a (https://arxiv.org/html/2606.31290#bib.bib14)) 以 `S=100` 步采样潜令牌,并进行反标准化以恢复 POD 系数:`â_p = Λ^{1/2} ã̂_p`。然后每个分块由线性解码器重建:
`û_p = ū + Φ â_p` (5)
全场使用固定的线性拼接算子 `S` 组装。我们生成 `M` 个独立潜样本以估计系数级协方差,然后通过固定的 POD 解码器传播该协方差,得到像素空间预测方差。因此,采样在低维潜空间中进行,不确定性则通过线性解码器解析传播。
(以下继续翻译剩余内容...)相似文章
用于全波形反演的扩散模型解耦潜在优化
介绍了用于全波形反演的解耦潜在优化(DLO),该方法将潜在优化松弛为一个二次罚目标,在基准测试中优于经典方法及基于扩散的方法,同时保留了平滑速度初始化的特性。
DiffusionOPD:扩散模型中在线策略蒸馏的统一视角
DiffusionOPD提出了一种扩散模型的多任务训练范式,利用在线策略蒸馏将任务特定的教师模型高效地整合到统一的学生模型中,在所有评估基准上取得了最先进的结果。
PiD:基于像素扩散的快速高分辨率潜在解码
PiD 提出了一种像素扩散解码器,将潜在解码重新定义为条件像素扩散,从而在高分辨率下实现快速、高质量的图像合成,并降低计算需求。在消费级硬件上,它能在不到一秒内将潜在表示解码为 4 倍或 8 倍放大图像。
zhen-nan/L2P
L2P 提出了一种高效的迁移范式,利用预训练的潜在扩散模型构建像素空间扩散模型,从而在极小的计算开销和数据需求下实现高质量生成,并支持原生 4K 分辨率。
MMDiff: 扩展扩散变换器以实现多模态生成
MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。