流形假设下可证明的扩散模型学习:坍缩与精炼
摘要
本文识别了流形假设下扩散模型中的坍缩与精炼机制,提出了分数诱导潜在扩散(SiLD),该方法可证明地避免了维度灾难。实验表明,SiLD在生成质量上匹配或超越基于VAE的潜在扩散模型。
arXiv:2605.20235v1 公告类型:新
摘要:扩散模型生成高维数据质量显著,但其训练如何有效学习分数函数,在数据支撑于低维流形时避免维度灾难,目前在理论上仍无解释。我们识别了一种由分数函数几何驱动的坍缩与精炼机制:在小噪声尺度下,分数函数的发散奇异性导致诱导去噪映射快速发生维度坍缩,投影到数据流形上;在中等噪声尺度下,训练精炼了学习流形上的内在密度。我们将这一原理实例化为分数诱导潜在扩散(SiLD),这是一个两阶段框架,其中流形学习和密度估计均从单一的去噪分数匹配目标中涌现,取代了基于VAE的潜在扩散模型中的启发式KL正则化。我们证明,由此产生的样本复杂度取决于内在维度而非环境维度。在Stacked MNIST、CelebA变体和分子生成基准上的实验表明,SiLD在生成质量上匹配或超越基于VAE的LDM,并一致地改进了重建,验证了我们的理论预测。
查看缓存全文
缓存时间: 2026/05/21 06:20
# 流形假设下可证明学习的扩散模型:坍缩与精炼
来源:https://arxiv.org/html/2605.20235
Wei Huang
RIKEN AIP & 统计数理研究所
wei\.huang\.vr@riken\.jp
&
Andi Han
悉尼大学
andi\.han@sydney\.edu\.au
Mingyuan Bai
新加坡科技研究局 & 统计数理研究所
Bai\_Mingyuan\_from\.Riken@a\-star\.edu\.sg
&
Huanjian Zhou
东京大学
zhou\-huanjian185@g\.ecc\.u\-tokyo\.ac\.jp
&
Qixin Zhang
南洋理工大学
qixin\.zhang@ntu\.edu\.sg
&
Taiji Suzuki
东京大学 & RIKEN AIP
taiji@mist\.i\.u\-tokyo\.ac\.jp
&
Kenji Fukumizu
统计数理研究所
fukumizu@ism\.ac\.jp
###### 摘要
扩散模型能够生成高质量的高维数据,然而其训练过程如何高效学习得分函数,并在数据位于低维流形上时避免维数灾难,在理论上仍未得到解释。我们发现了一种由得分函数自身几何性质驱动的“坍缩-精炼”机制:在小噪声尺度下,得分的发散奇异性促使去噪映射快速发生维度坍缩,从而投射到数据流形上;在中等噪声尺度下,训练则对学习到的流形上的内在密度进行精炼。我们将这一原理实例化为“得分诱导的潜扩散模型”(SiLD),这是一个两阶段框架,其中流形学习和密度估计均源自单一的去噪得分匹配目标,取代了基于VAE的潜扩散模型中启发式的KL正则化项。我们证明,由此产生的样本复杂度仅依赖于内在维度,而非环境维度。在Stacked MNIST、CelebA变体以及分子生成基准上的实验表明,SiLD在生成质量上与基于VAE的LDM相当或更优,并且始终能改善重建效果,从而验证了我们的理论预测。
## 1 引言
扩散模型已成为生成式建模的主导范式,展现出从复杂高维数据分布中合成高保真样本的卓越能力(Sohl-Dickstein等人,2015;Ho等人,2020;Song和Ermon,2019;Song等人,2020)。这些模型与得分匹配之间的联系,尤其是通过去噪自编码器的视角,已被牢固确立(Vincent,2011;Ho等人,2020)。尽管取得了实证成功,但关于在高维空间中实现高效学习的理论基础仍是一个备受关注的研究课题。核心难题在于“维数灾难”:理论上,在环境维度为\(d\)的空间中学习概率分布通常需要样本复杂度关于\(d\)呈指数增长(Wainwright,2019;Biroli等人,2024)。对此悖论的主流解决之道是流形假设,该假设认为真实世界数据虽然嵌入在高维环境空间中,但(近似)位于内在维度\(k\ll d\)的低维流形上(Fefferman等人,2016;Loaiza-Ganem等人,2024)。近期的理论工作利用这种低维结构,在统计估计和采样复杂度方面建立了更优的界(De Bortoli,2022;Chen等人,2023;Oko等人,2023;Li等人,2026;Tang和Yang,2024;Potaptchik等人,2024;Azangulov等人,2024),证明了当得分函数能被良好逼近时,样本复杂度依赖于内在维度\(k\)而非\(d\)。值得注意的是,Li和Yan(2024)以及Huang等人(2026)表明,DDPM采样器能自动适应未知的低维结构,在无需任何流形先验知识的情况下,达到迭代复杂度关于\(k\)近乎线性的缩放。从结构角度来看,Pidstrigach(2022)和Stanczuk等人(2024)证明,训练后的扩散模型通过逼近数据流形的法丛来检测并编码该流形;而Farghly等人(2025)则表明,得分平滑化隐式地向着适应流形的解进行正则化。近期,Boffi等人(2024)、Gao和Li(2024)以及Kumar等人(2026)研究了扩散模型和流匹配模型如何适应低维结构。然而,这些分析主要关注收敛后的得分估计器的性质,将优化过程抽象化处理,或依赖特定的架构假设,例如单层网络(Boffi等人,2024)。虽然已有工作开始探索扩散模型的训练动力学,Shah等人(2023)首次提供了可证明高效的结果,将DDPM目标上的梯度下降与恢复混合模型参数联系起来;Wang等人(2025)证明,在低秩参数化下优化扩散训练损失等价于子空间聚类问题;但这些结果仅限于受限的模型类别,并未刻画一般深度网络中权重的细粒度演化过程。从更广泛的神经网络优化角度,平均场理论(Mei等人,2018;Chizat,2022;Suzuki等人,2023)为分析两层网络训练动力学提供了强大框架;特征学习理论(Damian等人,2022;Mousavi-Hosseini等人,2022;Abbe等人,2023)表明,基于梯度的训练通过“鞍点到鞍点”动力学发现低维相关子空间。然而,这些机制如何在得分匹配这一特定设置中体现,以及优化过程本身是否利用了数据的低维几何结构,在很大程度上仍未得到探索。这引出了一个当前理论无法回答的根本问题:*一个各项同性初始化的神经网络,如何自适应地发现低维数据支撑,并在高维噪声中高效学习内在分布密度?*
我们通过提出**得分诱导的潜扩散模型(SiLD)** 来回答这个问题。这是一个具有理论基础的框架,用于刻画低维流形上得分匹配的梯度下降动力学。核心洞察在于,得分函数在小噪声水平下的奇异性自然诱发了一个**两阶段**学习机制:网络首先发现数据流形的几何结构,然后精炼其中蕴含的内在概率密度。这一关键洞察自然地引出了一种新颖的两阶段训练策略:首先通过低噪声得分匹配学习流形,然后学习流形上的密度。两个阶段均在单一的DDPM目标下训练,无需任何辅助损失或启发式正则化;潜表示由得分函数本身诱导,而非由独立的编码器强加。我们的主要贡献如下:
- **收敛保证**。我们证明了两个阶段的定量收敛速率。在第一阶段,平均场梯度流分析表明几何对齐风险以指数速度衰减。在第二阶段,我们通过低维流形上的随机特征回归建立了泛化界,证明了剩余风险仅多项式地依赖于内在维度\(k\)和样本量\(n\),而与环境维度\(d\)无关。
- **端到端样本复杂度**。我们建立了端到端的采样保证。流形阶段的贡献实现了仅依赖于内在维度的Wasserstein-2速率。高噪声阶段的贡献,由一个辅助的随机特征头部处理,产生的关于\(d\)的多项式项被积分时间指数衰减。综合而言,这避免了环境维数灾难。
- **实证验证**。我们在Stacked MNIST、CelebA以及分子生成基准上验证了我们的理论预测,表明SiLD在生成质量上与基于VAE的潜扩散模型(Rombach等人,2022)相当或更优,从而证实仅凭得分匹配目标就足以驱动流形学习和密度估计。
## 2 相关工作
**流形上扩散的统计理论**。除了引言中讨论的收敛性和自适应结果外,若干工作还考察了流形上扩散模型更细粒度的方面。Benton等人(2023)通过随机定位证明了扩散模型具有近乎\(d\)线性的收敛界,确立了反向步骤数量关于内在维度近乎线性缩放。最近期,Chakraborty等人(2026)引入了\((p,q)\)-Wasserstein维度,并在仅有有限矩条件(无紧支撑、流形或光滑密度假设)下证明了扩散模型首个Wasserstein-\(p\)收敛保证,达到了迄今为止已知的最快速率。Chandramoorthy和de Clercq(2025)表明,即使得分估计不精确,生成的样本也倾向于沿流形漂移而非远离流形;Fukumizu等人(2026)则证明,作用于流形支撑目标的OT-CFM动力学在法线方向指数收缩,在切线方向保持中性。Liu等人(2025)将法线方向上的得分奇异性识别为采样精度的障碍,并提出了缓解方法。从分析角度,George和Macris(2026)推导了使用随机特征网络对流形数据进行去噪得分匹配的渐近精确学习曲线,证实对于线性流形,样本复杂度随内在维度线性缩放,同时表明这种优势对于非线性流形会减弱——我们的两阶段解耦策略正是为了应对这一局限性。我们的工作与这一系列文献相辅相成,将焦点从统计收敛性质转向优化动力学。
**生成模型的训练动力学**。关于神经网络在扩散训练过程中如何学习的理论研究,相较于其统计理论仍远不成熟。Han等人(2024b)利用神经正切核(NTK)(Jacot等人,2018)为得分匹配目标上经过梯度下降训练的网络建立了首个泛化界,但NTK分析无法捕捉实践中出现的特征学习动力学。Shah等人(2023)和Wang等人(2025)证明,DDPM目标上的梯度下降能够恢复低维结构,分别将其与高斯混合恢复和子空间聚类联系起来。Han等人(2024a)和Li等人(2025)进一步通过低维数据模型分析了扩散模型中的特征学习和表示动力学。互补的研究路线通过高维渐近分析和凸优化(Cui和Zdeborová,2023;Cui等人,2025;Zhang和Pilanci,2024;Zeno等人,2025)来研究扩散训练,或建立采样中的粗到细谱动力学(Wang和Vastola,2023;Wang和Pehlevan,2025)。近期,Bonnaire等人(2025)通过两个训练时间尺度识别了一种隐式动力学正则化机制;我们的工作提供了其几何对应物,证明了“先坍缩后精炼”机制是记忆化被动态推迟的结构性驱动力,并表明得分奇异性驱动了类似的“先几何后密度”层级。
**潜扩散模型**。潜扩散模型(LDM)(Rombach等人,2022)通过在一个由VAE学习到的压缩潜空间中运行,而非直接在高维像素空间中操作,从而实现了最先进的生成质量。尽管在实践中极为有效,这种方法引入了一个根本性的紧张关系:VAE编码器使用启发式的KL正则化项进行训练,以鼓励潜空间具有良好的结构,而这与扩散阶段使用的得分匹配目标相互独立,并可能与之错位。若干工作尝试通过联合训练编码器和扩散模型(Vahdat等人,2021),或重新审视潜变量本身的训练方式(Heek等人,2026)来弥合这一差距。我们的工作SiLD提供了一种原则性的替代方案:流形学习和密度估计都自然地从不同噪声尺度下的得分匹配目标中涌现,完全消除了对KL正则化的需求。这为得分函数诱导的潜空间为何在几何上适合扩散提供了理论依据,并且正如我们的实验所验证,它始终能改善重建质量。
## 3 得分诱导的潜扩散模型
### 3.1 预备知识
**符号说明**。除非特别说明,我们用\(\|\cdot\|\)表示向量的欧几里得范数和矩阵的Frobenius范数。对于矩阵\(A\),\(\|A\|_{\mathrm{op}}\)表示其算子范数。我们使用标准渐近记号,如\(O(\cdot)\)、\(\Omega(\cdot)\)和\(o(\cdot)\)。记\(f\asymp g\)当且仅当\(f=O(g)\)且\(g=O(f)\)。
**数据分布**。令\(p_{\mathrm{data}}\)表示未知的目标分布。相似文章
深度之梦由此而成:可视化扩散模型中的单义特征
本文介绍了潜在空间优化可视化(LVO),这是一种机械可解释性技术,利用稀疏自编码器来可视化 Stable Diffusion 1.5 等扩散模型中的单义特征。
线性约束下的条件扩散:Langevin 混合与信息论保证
本文分析了预训练扩散模型在线性逆问题上的零样本条件采样,提供了信息论保证并提出了一种投影 Langevin 初始化方法。
离散扩散语言模型上的成员推断攻击
本文研究了针对微调掩码扩散语言模型(MDLMs)的成员推断攻击(MIA)。提出了一种白盒攻击,利用模型在不同掩码比率下的重构损失构建46维特征向量,取得了较高的AUC分数,表明MDLMs的脆弱性超出先前预期。
用于优化离散扩散语言模型的漂移目标
本文提出TokenDrift,一种漂移目标方法,通过将分类预测提升至连续语义空间进行反对称漂移,从而优化离散扩散语言模型。在固定去噪步数下,该方法显著提升了生成质量。
扩散、基于分数和流匹配生成模型的统一测度论视角
本预印本提出了一个统一的测度论框架,用于理解扩散、基于分数和流匹配生成模型。它通过连续性/福克-普朗克方程建立了这些方法之间的联系,并分析了它们的采样方案及其理论保证。