Spectral Guidance：灵活高效的扩散模型控制方法

arXiv cs.LG 2026/05/29 04:00 论文

diffusion-models guidance spectral-guidance generative-ai machine-learning research

摘要

介绍了Spectral Guidance，一种通过利用扩散过程的低维表示来控制扩散模型的框架，无需任务特定的重新训练或通过去噪器的反向传播即可实现灵活稳定的控制。

arXiv:2605.28900v1 公告类型：新摘要：我们引入了Spectral Guidance，一个通过利用生成过程的内在几何结构来控制扩散模型的框架。随着数据被噪声逐步破坏，只有少数特征对控制仍然具有信息性。我们将其表征为条件期望算子的奇异函数，并表明可以通过自监督目标来学习它们。一旦恢复，这个基础使得可以将任意引导信号（如标签、CLIP嵌入或掩码）直接投影到采样轨迹上。这种方法允许在采样过程中无需重新训练或去噪器反向传播的情况下实现稳定、高保真的控制。实验上，我们在CIFAR-10上的条件准确率比最强的无训练基线提高了37个百分点，同时采样速度提高了$4\times$。此外，支持标签和CLIP引导的相同表示也实现了空间控制，例如基于掩码的引导，而无需辅助模型。最后，我们的框架揭示了生成过程中的一个相变，指出了有效引导的最优时间窗口。

查看原文

查看缓存全文

缓存时间: 2026/05/29 09:13

# 频谱引导：扩散模型灵活高效的控制方法 来源：https://arxiv.org/html/2605.28900

## 1 引言

生成式建模在扩散方法（Sohl-Dickstein 等，2015 (https://arxiv.org/html/2605.28900#bib.bib44)）上取得了巨大进展，这些方法现在能够生成图像、音频及其他模态的高保真样本（Ho 等，2020 (https://arxiv.org/html/2605.28900#bib.bib14)；Song 等，2020b (https://arxiv.org/html/2605.28900#bib.bib18)；Rombach 等，2022 (https://arxiv.org/html/2605.28900#bib.bib51)）。这些模型通过逆转逐步破坏的过程，将结构化数据逐渐转化为噪声。尽管生成的前向和反向动力学已得到充分理解，但这些模型的实用性取决于**引导**：根据用户规范进行采样，这些规范可以是标签（Dhariwal and Nichol，2021 (https://arxiv.org/html/2605.28900#bib.bib33)）、文本提示（Saharia 等，2022 (https://arxiv.org/html/2605.28900#bib.bib55)）或自定义目标（Zhang 等，2023 (https://arxiv.org/html/2605.28900#bib.bib58)）。关键挑战在于如何在实际中施加这种引导。成功的主流方法依赖于从一开始就训练模型使其具备条件性（Dhariwal and Nichol，2021 (https://arxiv.org/html/2605.28900#bib.bib33)；Ho and Salimans，2022 (https://arxiv.org/html/2605.28900#bib.bib25)），从而在采样时直接注入所需的引导。这种策略提供了强大且稳定的控制，但将模型与一组固定条件紧密耦合，一旦规范发生变化就需要重新训练或增加额外模型。另一种方法是从无条件模型开始，仅在采样时通过优化用户定义的目标来强制执行所需行为（Chung 等，2022 (https://arxiv.org/html/2605.28900#bib.bib29)；Ye 等，2024 (https://arxiv.org/html/2605.28900#bib.bib34)）。虽然这提供了更大的灵活性，但通常需要在采样时通过去噪器进行微分，并近似一个难以处理的后验分布。在实践中，这会导致更高的计算成本，并且控制往往不稳定，尤其是对于复杂目标。

在这项工作中，我们提出了**频谱引导**（Spectral Guidance），这是一个利用扩散过程内在结构实现灵活控制的框架。随着数据逐渐被噪声破坏，细粒度的细节会丢失，而粗粒度的语义特征则得以保留。我们表明，这些特征形成了一个自然的、低维的坐标系，用于追踪信息如何在扩散过程中传播。通过学习这种表示，我们可以将任意引导目标（从简单的标签到掩码）直接投影到生成轨迹中。这使得我们能够在不依赖任务特定重新训练或去噪器梯度的情况下实现稳定控制。

我们的技术方法基于对跨扩散时间步的条件期望算子的低秩近似。由于高频细节逐步被破坏，该算子的主要奇异函数形成了一个时间索引的低维基，捕捉了扩散时间内持久的变化轴。我们证明，一个带有正交约束的自监督学习（SSL）目标（Bardes 等，2021 (https://arxiv.org/html/2605.28900#bib.bib3)）是该算子主要奇异函数的变分估计器，其中同一样本的独立扩散视图充当数据增强。一旦学习到这些表示，引导就简化为在这个基上的简单线性投影。这种表述提供了一种高效且灵活的引导机制。它消除了在采样时通过去噪器进行反向传播的需要，仅需一次性训练来学习扩散过程的内在坐标。这些表示揭示了哪些特征是可恢复的，以及引导在何时有效。此外，由于与任务无关，它们支持任意下游控制目标而无需重新训练。在实验上，我们在标签、属性和CLIP引导方面都取得了一致的改进；值得注意的是，在CIFAR-10上，我们在准确率上超过了最强无训练基线37个百分点，同时改进了FID并实现了4倍更快的采样速度。此外，我们的表示能够泛化到空间控制（如掩码引导生成）而无需辅助模型。最后，它们揭示了一个频谱相变点，精确定位了有效引导的最佳时间窗口。

我们的贡献总结如下：

- 我们提出了**频谱引导**，它将扩散引导重新定义为向与生成动力学对齐的坐标系的投影，从而实现了无需重新训练扩散模型的灵活控制。
- 我们引入了一个自监督学习目标，用于估计扩散算子的频谱分解。这种表示产生了一个轻量级的引导算法，与去噪器的梯度解耦。
- 我们在准确率上超越了无训练基线超过37个百分点，速度提升了4倍，同时实现了无需辅助模型的复杂控制（如掩码引导）。此外，我们的表示揭示了反向过程中的一个相变，该相变与有效引导的最佳时间窗口对齐。

## 2 相关工作

下面我们回顾条件生成方面的关键进展。

#### 扩散引导。
为了在采样过程中引入条件或放大特定信号，分类器引导（CG）（Dhariwal and Nichol，2021 (https://arxiv.org/html/2605.28900#bib.bib33)）使用了一个在噪声数据上训练的外部分类器，利用其梯度来引导生成轨迹。无分类器引导（CFG）（Ho and Salimans，2022 (https://arxiv.org/html/2605.28900#bib.bib25)）通过联合训练一个条件模型和一个无条件模型，然后在采样时插值它们的分数估计，从而消除了对外部分类器的需求。虽然CFG已成为现代架构（从Stable Diffusion（Rombach 等，2022 (https://arxiv.org/html/2605.28900#bib.bib51)）到Flow Matching模型（Lipman 等，2022 (https://arxiv.org/html/2605.28900#bib.bib52)））的**事实标准**，但它通常应用一个恒定的引导尺度，对扩散过程的动力学不敏感。有关全面综述，请参考Zhan等人（2024 (https://arxiv.org/html/2605.28900#bib.bib50)）。为了解决静态引导的局限性，最近的工作（Koulischer 等，2025 (https://arxiv.org/html/2605.28900#bib.bib53)；Kynkäänniemi 等，2024 (https://arxiv.org/html/2605.28900#bib.bib43)）利用对扩散动力学和相变（Handke 等，2025 (https://arxiv.org/html/2605.28900#bib.bib42)；Raya and Ambrogioni，2023 (https://arxiv.org/html/2605.28900#bib.bib54)）的洞察，针对特征最可控的时间窗口，从而优化生成质量。

#### 无训练引导。
另一条研究线专注于通过外部损失函数以即插即用的方式控制预训练扩散模型，从而消除重新训练的需求。最初为解决逆问题而开发（Kawar 等，2021 (https://arxiv.org/html/2605.28900#bib.bib47)；Choi 等，2021 (https://arxiv.org/html/2605.28900#bib.bib48)；Kawar 等，2022 (https://arxiv.org/html/2605.28900#bib.bib49)），这一范式包括扩散后验采样（DPS）（Chung 等，2022 (https://arxiv.org/html/2605.28900#bib.bib29)），它使用在基于后验分布点估计的损失函数梯度来引导采样。对于一般控制，损失引导扩散（LGD）（Song 等，2023 (https://arxiv.org/html/2605.28900#bib.bib31)）通过蒙特卡洛采样估计条件期望来改进DPS，而MPGD（He 等，2024 (https://arxiv.org/html/2605.28900#bib.bib13)）利用流形假设将引导限制在低维数据流形上。通用扩散引导（UGD）（Bansal 等，2023 (https://arxiv.org/html/2605.28900#bib.bib30)）和FreeDoM（Yu 等，2023 (https://arxiv.org/html/2605.28900#bib.bib32)）进一步通过迭代“时间旅行”策略和自适应调度来增强跨扩散时间步的引导。最近，无训练引导（TFG）（Ye 等，2024 (https://arxiv.org/html/2605.28900#bib.bib34)）将许多这些方法统一在了一个共同的引导算法下。

#### 扩散模型中的编辑方向。
NoiseCLR（Dalva and Yanardag，2024 (https://arxiv.org/html/2605.28900#bib.bib4)）通过对比自监督目标在预训练扩散模型的噪声空间中发现可解释的方向；虽然它也使用了SSL风格的训练，但其目标是潜在空间**编辑**，而非信息保持结构。更相关的是，Park等人（2023 (https://arxiv.org/html/2605.28900#bib.bib5)）和Chen等人（2024 (https://arxiv.org/html/2605.28900#bib.bib2)）使用去噪器雅可比矩阵的频谱分解作为事后工具来识别语义编辑方向。相比之下，我们避免了训练依赖于任务的条件去噪器以及依赖点估计。相反，我们提出通过将引导信号映射到扩散模型的频谱坐标上来引导无条件模型。

## 3 预备知识

#### 扩散模型。
设 \(X_0 \sim p_0\) 是一个数据随机变量，其支撑集为 \(\mathcal{X}\)。去噪扩散概率模型（DDPMs）（Ho 等，2020 (https://arxiv.org/html/2605.28900#bib.bib14)）定义了一个前向过程，通过方差调度 \(\{\alpha_t\}_{t=1}^T\) 逐步将 \(X_0\) 扰动为高斯噪声，其中 \(\alpha_t \in (0,1)\) 且 \(\bar{\alpha}_t := \prod_{s=1}^t \alpha_s\)。该过程允许通过以下公式直接采样任何时间步 \(t\) 的噪声潜在变量 \(x_t\)：
\[
p_t(x_t \mid x_0) = \mathcal{N}\left(x_t; \sqrt{\bar{\alpha}_t} x_0, (1 - \bar{\alpha}_t) I\right). \tag{1}
\]
为了逆转这个过程，训练一个神经网络 \(\epsilon_\theta(x_t, t)\) 来预测添加到 \(x_0\) 的噪声 \(\epsilon\)。这个训练目标等价于去噪分数匹配（Song and Ermon，2019 (https://arxiv.org/html/2605.28900#bib.bib45)），因为最优去噪器与边缘分布的分数关系为：
\[
\nabla_{x_t} \log p_t(x_t) = -\frac{\epsilon_\theta(x_t, t)}{\sqrt{1 - \bar{\alpha}_t}}. \tag{2}
\]
虽然原始的DDPM公式需要一个随机的马尔可夫链，但去噪扩散隐式模型（DDIMs）（Song 等，2020a (https://arxiv.org/html/2605.28900#bib.bib10)）通过以下更新规则提供了一种更快的、非马尔可夫的替代方案：
\[
x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \left( \frac{x_t - \sqrt{1 - \bar{\alpha}_t} \epsilon_\theta(x_t, t)}{\sqrt{\bar{\alpha}_t}} \right) + \sqrt{1 - \bar{\alpha}_{t-1} - \sigma_t^2} \epsilon_\theta(x_t, t) + \sigma_t \varepsilon, \tag{3}
\]
其中 \(\varepsilon \sim \mathcal{N}(0, I)\)。

#### 扩散引导。
生成性反向时间过程的实际效用取决于在给定条件信号 \(y\)（如类标签、文本提示或任务目标）的情况下，引导式（3）中的无条件轨迹的能力。这对应于从条件分布 \(p(x_0 \mid y)\) 中采样。根据贝叶斯规则，我们可以将条件分数分解为：
\[
\nabla_{x_t} \log p_t(x_t \mid y) = \nabla_{x_t} \log p_t(x_t) + \nabla_{x_t} \log p_t(y \mid x_t).
\]
其中 \(\nabla_{x_t} \log p_t(x_t)\) 由无条件模型提供，而引导项 \(\nabla_{x_t} \log p_t(y \mid x_t)\) 需要一个依赖于时间的预测器（Dhariwal and Nichol，2021 (https://arxiv.org/html/2605.28900#bib.bib33)）：
\[
p_t(y \mid x_t) = \mathbb{E}_{X_0 \sim p_t(\cdot \mid x_t)} [p(y \mid X_0)]. \tag{4}
\]
因此，这种方法将生成的控制限制在用于训练 \(p_t(y \mid x_t)\) 的条件信号 \(y\) 上。

#### 无训练引导。
与基于训练的方法相反，无训练引导旨在通过估计 \(p_t(y \mid x_t)\) 在采样时使用任何干净数据信号 \(p(y \mid x_0)\) 来引导式（3）中的无条件轨迹。由于式（4）通常是难以处理的，像DPS（Chung 等，2022 (https://arxiv.org/html/2605.28900#bib.bib29)）等方法依赖于去噪器对后验均值的点估计 \(\hat{x}_0(x_t) \approx \mathbb{E}[X_0 \mid X_t = x_t]\)：
\[
\mathbb{E}_{X_0 \sim p_t(\cdot \mid x_t)} [p(y \mid X_0)] \approx p\left(y \mid \hat{x}_0(x_t)\right). \tag{5}
\]
这种替代仅在 \(p(y \mid x_0)\) 是 \(x_0\) 的仿射函数时才是精确的，而语义任务很少满足此条件。在较大的噪声水平下，后验均值甚至可能位于数据流形之外（He 等，2024 (https://arxiv.org/html/2605.28900#bib.bib13)），导致梯度不对齐。此外，微分 \(\hat{x}_0(x_t)\) 需要在每一步通过去噪器进行反向传播，计算成本高昂且容易出现梯度消失。

![[Uncaptioned image]](https://arxiv.org/html/2605.28900v1/x1.png)

(a) 高斯混合先验上的频谱引导。等高线描绘了 \(\log p_0(x_0)\)。
(a) 按成分着色的先验样本。 (b, c) 使用固定的一组 \(K=30\) 个频谱模式，频谱引导（白色）在不同标签子集条件下生成的样本。相同的特征使得能够为任意条件集 \(\mathcal{Y}\) 从 \(p(x_0 \mid y \in \mathcal{Y})\) 中采样。

## 4 用于引导的频谱表示

一个关键观察促使了我们的方法：随着扩散噪声的增加，关于数据的信息逐渐被破坏，只有少量特征能够被恢复。因此，在每个扩散时间步，存在一组低维的内在方向，引导可以沿着这些方向有效作用。我们建议沿着这些扩散稳定的方向引导样本（图3(a)）。

我们可以将式（4）中的期望视为从干净数据空间 \(\mathcal{H}_0 = L^2(p_0)\) 到噪声数据空间 \(\mathcal{H}_t = L^2(p_t)\) 的算子的作用。这产生了
\[
p_t(y \mid x_t) = (T_t p(y \mid \cdot))(x_t),
\]
其中 \(T_t: \mathcal{H}_0 \to \mathcal{H}_t\) 是给定 \(x_t\) 时干净数据函数 \(f(x_0)\) 的条件期望：
\[
(T_t f)(x_t) := \mathbb{E}_{X_0 \sim p_t(\cdot \mid x_t)} [f(X_0)]. \tag{6}
\]
该算子保留了从噪声观测 \(x_t\) 中可恢复的 \(f\) 的分量。

Spectral Guidance：灵活高效的扩散模型控制方法

相似文章

学习离散化：基于扩散的自适应网格与谱引导

频率引导的子频率流形遍历动作扩散

GDSD：强化学习作为扩散语言模型的引导式降噪器自蒸馏

面向扩散模型的类频率引导噪声调度

扩散模型的时间差分学习

提交意见反馈