灾难性组合生成:为什么基础扩散模型无法外推
摘要
本文认为,当目标分布处于分布外时,基础条件扩散模型在组合生成方面根本失败,原因是分数估计误差,并且推理时的校正无法完全补偿。
arXiv:2606.23920v1 公告类型: 新
摘要:组合生成任务涉及使用仅在部分可能条件下训练的条件生成模型,从组合定义的目标分布(例如源分布的几何组合)中生成样本。在这项工作中,我们认为该任务对于基础条件扩散模型通常是不可行的:我们推测,在某些动机明确的设置中,没有任何推理时技术能够高效地从目标分布中生成样本。这一观点得到了理论引导的泛化论证以及针对合成数据和真实数据精心设计的实验的支持。特别地,虽然近期方法如Feynman-Kac校正减少了推理时的近似误差,但我们的结果表明,当目标分布相对于源分布处于分布外时,分数估计误差对性能产生更灾难性的影响,凸显了针对此任务需要采用不同方法的必要性。
查看缓存全文
缓存时间: 2026/06/24 07:49
# 灾难性组合生成:为什么原始扩散模型无法外推
来源:https://arxiv.org/html/2606.23920
Duncan Soiffer
Chandler Squires
机器学习系,卡内基梅隆大学
Yuan Guan
机器学习系,卡内基梅隆大学
Jason Hartford
Valence Labs
计算机科学系,曼彻斯特大学
Pradeep Ravikumar
机器学习系,卡内基梅隆大学
###### 摘要
*组合生成*任务涉及使用条件生成模型(仅在可能条件的一个子集上训练)从组合定义的目标分布(例如源分布的几何组合)中生成样本。在这项工作中,我们认为该任务对于原始条件扩散模型通常是不可行的:我们推测,在某些动机明确的设置中,没有推理时技术能够高效地从目标分布中生成样本。这一观点得到了理论指导的泛化论证以及在合成数据和真实数据上精心设计的实验的支持。具体而言,虽然最近的方法如Feynman-Kac校正减少了*推理时近似误差*,但我们的结果表明,当目标分布相对于源分布是分布外时,*分数估计误差*对性能有更灾难性的影响,凸显了对此任务采用不同方法的必要性。
## 1 引言
我们想要建模的分布空间通常远大于我们能够访问的分布集合。我们希望模型能够想象任意概念的组合(例如“一个*客厅*,有一张*白色沙发*、一把*黑色椅子*、两幅*画*、一盏*落地灯*,没有其他东西”),但数据仅支持这些概念的某些组合。当数据来自实验时尤其如此,例如在生物学中,可能的实验空间是组合爆炸的(涵盖所有可能的分子、基因敲除、细胞类型、检测等组合),但实验预算有限。因此,人们对构建扰动效应预测模型产生了浓厚兴趣,这些模型可以预测未观察实验的结果(Lotfollahiet al.,2023 (https://arxiv.org/html/2606.23920#bib.bib51); Roohaniet al.,2024 (https://arxiv.org/html/2606.23920#bib.bib47); Wanget al.,2024 (https://arxiv.org/html/2606.23920#bib.bib46); Adduriet al.,2025 (https://arxiv.org/html/2606.23920#bib.bib59); Wenkelet al.,2026 (https://arxiv.org/html/2606.23920#bib.bib45); Bunneet al.,2024 (https://arxiv.org/html/2606.23920#bib.bib48); Noutahiet al.,2025 (https://arxiv.org/html/2606.23920#bib.bib49))。为了外推到新的组合,*组合生成*的方法依赖强归纳偏差,例如假设存在某种潜在空间,其中效应具有加性结构。例如,如果两个生物扰动\(a\)和\(a'\)是*因果可分离的*,则可以证明双重扰动分布\(P(x \mid \text{do}(a), \text{do}(a'))\)可以表示为控制分布\(P(x)\)和单扰动分布\(P(x \mid \text{do}(a))\)及\(P(x \mid \text{do}(a'))\)的几何组合(Wanget al.,2023 (https://arxiv.org/html/2606.23920#bib.bib5); Xuet al.,2024 (https://arxiv.org/html/2606.23920#bib.bib58))。原则上,这样的结果意味着可以显著减少在困难生成任务上成功所需的训练数据量。然而,在实践中,即使组合分布\(P(x \mid \text{do}(a), \text{do}(a'))\)可以用我们有训练样本的分布来表示,这并不意味着我们可以有效地从\(P(x \mid \text{do}(a), \text{do}(a'))\)中采样。不幸的是,分布层面的恒等式并不一定能转化为计算和统计上高效的算法。特别是,我们考虑组合*条件扩散模型*的程序,鉴于其实用相关性和强大的生成能力(Dhariwal and Nichol,2021 (https://arxiv.org/html/2606.23920#bib.bib40))。值得注意的是,分布层面的几何组合转化为分数层面的线性组合。因此,一个流行的启发式方法是在去噪过程中线性组合分数(Liuet al.,2022 (https://arxiv.org/html/2606.23920#bib.bib20))。然而,人们越来越认识到这种朴素方法引入了一个根本性的误差源,即使假设模型实现了完美恢复:一般来说,向分布添加噪声会破坏其分数函数之间的线性关系。为了解决这个问题,最近的基于粒子的算法(Skretaet al.,2025 (https://arxiv.org/html/2606.23920#bib.bib24); Xieet al.,2026 (https://arxiv.org/html/2606.23920#bib.bib26); Renet al.,2026 (https://arxiv.org/html/2606.23920#bib.bib25))显式地纠正了这个误差。我们专注于Feynman-Kac校正器(FKC)(Skretaet al.,2025 (https://arxiv.org/html/2606.23920#bib.bib24)),这是该方法的一个灵活实例,它追踪去噪轨迹上的重要性权重并利用它们进行校正。尽管有这些最新进展,我们指出了一个对组合造成更严重问题的问题。我们发现,在许多感兴趣的设置中,*分数估计误差*,即从模型学习到的分数函数中的误差传播而来的误差,成为主导因素,因为组合分布的典型样本位于源分布的低密度区域。此外,在这些情况下,我们发现FKC放大了这些误差,进一步降低了样本质量。
##### 贡献
在前人工作的基础上,我们首先介绍了*组合生成任务的明确表述*,表明此类组合与*因果表示学习*密切相关,并*形式化了使该任务变得困难的两个误差来源*(第2节 (https://arxiv.org/html/2606.23920#S2) 和附录B (https://arxiv.org/html/2606.23920#A2))。然后,我们提供了*关于这些误差在不同源分布集合下如何行为的理论见解*(第4节 (https://arxiv.org/html/2606.23920#S4)),重点放在说明性的、解析可处理的设置上。基于这些见解,我们进行了仔细的实验,以区分分数估计误差和推理时近似误差(第5节 (https://arxiv.org/html/2606.23920#S5))。这些实验揭示,两种误差源导致在不同但部分重叠的区域内组合失败,并且在重叠区域内,分数估计误差往往主导了对推理时近似误差进行校正的尝试。
## 2 设置:几何加权组合
在数学上,我们考虑一个*扰动空间*\(\mathcal{A}\)和一个*结果空间*\(\mathcal{X}\)。例如,如果科学家可以以不同剂量应用\(K\)种药物,并在扰动后测量细胞图像,那么我们有\(\mathcal{A} = \mathbb{R}^K_{\geq 0}\),并且我们将\(\mathcal{X}\)视为图像空间。每个扰动\(a \in \mathcal{A}\)与一个结果上的真实分布\(P^a \in \mathcal{P}\)相关联,其中\(\mathcal{P}\)表示\(\mathcal{X}\)上的概率分布集合。在实践中,我们可能只观察到整个扰动空间中一个小子集\(\mathcal{A}_o \subseteq \mathcal{A}\)的结果数据。例如,当实验成本高昂(如扰动细胞成像)时,我们可能只观察到对照条件和固定剂量下的单个药物的数据(即\(\mathcal{A}_o = \{\mathbf{0}\} \cup \{\mathbf{e}_k : k \in [K]\}\),其中\(\mathbf{e}_k\)是第\(k\)个基向量)。在这种情况下,我们希望*外推*到未观察到的扰动\(a^* \in \mathcal{A} \setminus \mathcal{A}_o\)。在一系列动机良好的理论假设下,目标分布\(P^{a^*}\)通常可以从观察到的分布\((P^a)_{a \in \mathcal{A}_o}\)中识别。在这项工作中,我们考虑一种在几种设置中都常见的形式,其中分布\(P^{a^*}\)的密度表示为源分布密度的几何混合。为了确保我们的表达式定义良好,我们假设在整篇论文中,对于每个\(a \in \mathcal{A}\),分布\(P^a\)都与\(\mathcal{X}\)上的一个密度相关联。按照惯例滥用符号,我们也把这个密度记为\(P^a\)。此外,我们假设这些密度是正的,即对于所有\(a \in \mathcal{A}_o\)和\(x \in \mathcal{X}\),我们有\(P^a(x) > 0\),以确保我们避免除以零。¹¹在附录A (https://arxiv.org/html/2606.23920#A1) 中,我们给出了这个假设的更正式版本,并讨论了等式表达式的更正式解释。
###### 定义 1. 固定\(\mathcal{A}_o \subseteq \mathcal{A}\)。给定一组分布\(\mathbf{P} = (P^a)_{a \in \mathcal{A}_o}\)和一个函数\(w: \mathcal{A}_o \to \mathbb{R}\),如果\(f(x) = \prod_{a \in \mathcal{A}_o} P^a(x)^{w_a}\)是可积的,则称\(w\)是一个*有效权重*,其中\(w_a\)是\(w(a)\)的简写。对于一个有效权重\(w\),我们将\(\mathbf{P}\)的*加权组合*定义为
\[
\operatorname{\textsc{Comp}}_w(\mathbf{P})(x) := \frac{1}{Z^w} \prod_{a \in \mathcal{A}_o} P^a(x)^{w_a}, \quad \text{其中} \quad Z^w := \int_{\mathcal{X}} \left( \prod_{a \in \mathcal{A}_o} P^a(x)^{w_a} \right) dx. \tag{1}
\]
或者,我们将\(\mathbf{P}^w := \operatorname{\textsc{Comp}}_w(\mathbf{P})\)作为简写。
这种分布层面的几何组合变成了分数层面的线性组合。假设\(\log P^a\)是可微的,则*Stein分数函数*为\(S^a(x) := \nabla_x \log P^a(x)\),对于\(a \in \mathcal{A}_o\),而\(S^w(x) := \nabla_x \log P^w(x)\)。那么,对于任何有效权重\(w\),我们有
\[
S^w(x) = \sum_{a \in \mathcal{A}_o} w_a S^a(x).
\]
##### 加权组合的因果起源
为了更好地理解加权组合的重要性,有必要简要讨论一下它们自然出现的条件。作为一个经典例子,考虑预测双重扰动\(a^* = \mathbf{e}_1 + \mathbf{e}_2\)的结果,仅给定观测数据和单扰动,即\(\mathcal{A}_o = \{\mathbf{0}, \mathbf{e}_1, \mathbf{e}_2\}\),并假设结果空间\(\mathcal{X}\)可以分解为一个上游分量\(\mathcal{X}_1\)和一个下游分量\(\mathcal{X}_2\)。反映这种结构,我们可以将\(P^{\mathbf{0}}\)分解为
\[
P^{\mathbf{0}}(x) = P^{\mathbf{0}}(x_1) P^{\mathbf{0}}(x_2 \mid x_1).
\]
在许多系统中,扰动可以被预期具有孤立的、有针对性的效应:在因果关系中,这可以用*机制变化*或*软干预*来表达(Squires and Uhler,2023 (https://arxiv.org/html/2606.23920#bib.bib76))。特别地,假设\(\mathbf{e}_1\)影响上游分量但不影响下游分量,即
\[
P^{\mathbf{e}_1}(x) = P^{\mathbf{e}_1}(x_1) P^{\mathbf{0}}(x_2 \mid x_1),
\]
而\(\mathbf{e}_2\)影响下游分量但不影响上游分量,即
\[
P^{\mathbf{e}_2}(x) = P^{\mathbf{0}}(x_1) P^{\mathbf{e}_2}(x_2 \mid x_1).
\]
此外,扰动通常可以被预期具有模块化效应,这被称为*独立因果机制*原理(Schölkopfet al.,2021 (https://arxiv.org/html/2606.23920#bib.bib74))。在此假设下,双重扰动\(a^*\)简单地“组合”了单个扰动的效应,因此
\[
P^{a^*}(x) = P^{\mathbf{e}_1}(x_1) P^{\mathbf{e}_2}(x_2 \mid x_1).
\]
在这种情况下,很容易证明\(P^{a^*} = \operatorname{\textsc{Comp}}_{w_{\text{dbl}}}(\mathbf{P})\),其中有效权重\(w(\mathbf{e}_1) = w(\mathbf{e}_2) = 1\),\(w(\mathbf{0}) = -1\)。更广泛地说,这种推理可以扩展到两个以上的扰动,并且\(\mathcal{X}\)不必直接分解为因果分量:这种分解可能只存在于某个未知的潜在空间中。在这种情况下,*因果表示学习*领域为加权组合提供了更一般的理由,正如我们在附录B (https://arxiv.org/html/2606.23920#A2) 中所描述的。
##### 组合生成任务及其挑战
有了这些激励性例子,我们如下定义组合生成任务的一个具体版本:
###### 任务(加权组合的组合生成)。输入为:从\(\mathcal{A}_o\)到\(\mathcal{X}\)的条件扩散模型\(\mathbf{P}_\theta \approx \mathbf{P}_\star\),以及\(\mathbf{P}_\star\)的一个有效权重\(w: \mathcal{A}_o \to \mathbb{R}\)。使用高效算法,从分布\(\widetilde{P} \in \mathcal{P}\)中生成样本,使得\(\widetilde{P} \approx \mathbf{P}_\star^w\)。
更正式地,设\(d\)是分布空间\(\mathcal{P}\)上的某个度量。那么,我们的输入假设(\(\mathbf{P}_\theta \approx \mathbf{P}_\star\))表明,我们给定\(\mathbf{P}_\theta\),使得对于所有\(a \in \mathcal{A}_o\),有\(d(P^a_\theta, P^a_\star) < \varepsilon_1\);而我们的输出要求(\(\widetilde{P} \approx \mathbf{P}_\star^w\))表明,我们从某个\(\widetilde{P}\)中生成样本,使得\(d(\widetilde{P}, \mathbf{P}_\star^w) < \varepsilon_2\)。
我们注意到此任务面临两个挑战。首先,会遇到*推理时近似误差*:对于大多数模型类(例如扩散模型),我们无法有效从\(\mathbf{P}_\theta^w\)中采样,只能从某个近似代理\(\widetilde{P} \approx \mathbf{P}_\theta^w\)中采样。其次,会遇到*分数估计误差*:由于我们使用估计模型\(\mathbf{P}_\theta \neq \mathbf{P}_\star\),通常我们会有\(\mathbf{P}_\theta^w \neq \mathbf{P}_\star^w\)。相似文章
流形假设下可证明的扩散模型学习:坍缩与精炼
本文识别了流形假设下扩散模型中的坍缩与精炼机制,提出了分数诱导潜在扩散(SiLD),该方法可证明地避免了维度灾难。实验表明,SiLD在生成质量上匹配或超越基于VAE的潜在扩散模型。
组合坍缩:稳定的事实知识并不蕴含组合推理
本文介绍了'组合坍缩'这一现象,即语言模型虽然拥有稳定的事实知识,但仍无法将这些知识组合成正确的多跳推理,并提出了一个双门协议,以将组合失败与原子知识不稳定性分离开来。
扩散、基于分数和流匹配生成模型的统一测度论视角
本预印本提出了一个统一的测度论框架,用于理解扩散、基于分数和流匹配生成模型。它通过连续性/福克-普朗克方程建立了这些方法之间的联系,并分析了它们的采样方案及其理论保证。
破坏是学习生成的通用策略;扩散模型的优势在于认真对待;探索是未来
本文介绍了扩散模型作为一类技术的组成部分,这类技术会隐藏信息并训练模型猜测这些信息,认为扩散的破坏性方法灵活且具有优势,尤其在数据稀缺的场景下;文章还讨论了探索问题,并介绍了一种新型的概率图模型。
物理序列建模中错误泛化的机制
本文识别并分析了生成序列模型中的“物理错误泛化”现象,即单个轨迹看似合理,但物理量的整体分布却不正确,并提出了一种基于核的缓解方法。