面向扩散模型的类频率引导噪声调度

arXiv cs.LG 2026/06/29 04:00 论文

摘要

本文提出了一种面向扩散模型的类频率引导噪声调度，为低频类别分配更大尺度的噪声，以改善在不平衡数据集上的生成质量，相较于基线方法取得了显著提升。

arXiv:2606.27696v1 公告类型：新论文摘要：本文首次探讨了类别频率与扩散模型内多尺度噪声调度之间的相关性。对于基于分数的生成模型，低密度区域往往导致分数估计不准确，从而影响生成质量。虽然多尺度噪声调度可以在扩散过程中缓解这一问题，但低频类别仍然面临大面积低密度区域的挑战，导致其分数估计比高频类别更不准确。此外，高频类别倾向于主导分数空间，使得大多数数据点收敛到生成这些类别的样本，从而造成低频类别生成的样本质量和多样性不佳。为解决这一挑战，我们提出了一种名为“类频率引导”（Class-frequency Guided, CFRG）的噪声调度方法，其核心思想是赋予低频类别更大尺度的噪声。为了验证方法的有效性，我们在图像生成、图像分类和文本到图像生成等多项任务上进行了实验，使用了不平衡数据集，即 CIFAR-100-LT 和 ImageNet-LT。采用 CFRG 噪声调度后，我们在基线方法基础上取得了显著改进，这表明频率统计信息在噪声调度设计中起着关键作用。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:25

# 面向扩散模型的类别频率引导噪声调度
来源: https://arxiv.org/html/2606.27696
\[1\]\\fnmJiequan\\surCui

1\]合肥工业大学

2\]中国科学技术大学

3\]香港大学

4\]香港中文大学

5\]南洋理工大学

\\fnmBeier\\surZhu\\fnmQingshan\\surXu\\fnmXiaojuan\\surQi\\fnmBei\\surYu\\fnmHanwang\\Zhang\[\[\[\[\[

###### 摘要

在本文中，我们首次研究了扩散模型中类别频率与多尺度噪声调度之间的相关性。在基于分数的生成模型中，低密度区域通常会导致分数估计不准确，从而影响生成质量。尽管多尺度噪声调度可以在扩散过程中缓解这一问题，但低频类别仍然面临较大低密度区域的挑战，导致其分数估计比高频类别更不准确。此外，高频类别往往主导分数空间，使得大多数数据点倾向于生成这些类别的样本。因此，低频类别生成的样本质量较差且多样性有限。为了解决这一挑战，我们提出了类别频率引导（CFRG）噪声调度，其核心思想是低频类别应被赋予更大尺度的噪声。为了展示我们方法的有效性，我们在不平衡数据集（即CIFAR-100-LT和ImageNet-LT）上进行了包括图像生成、图像分类和文本到图像生成在内的多种任务的实验。通过采用CFRG噪声调度，我们在基线方法的基础上取得了显著提升，这凸显了频率统计在噪声调度设计中的关键作用。

###### 关键词:

长尾，扩散模型，图像生成

## 1 引言

基于分数的生成模型\[song2020score,ho2020denoising,song2019generative\]在图像/视频生成\[rombach2022high,liu2024sora\]、音频合成\[chen2020wavegrad\]、图像编辑\[hertz2022prompt,brooks2023instructpix2pix,kawar2023imagic\]以及对抗训练\[wang2023better\]等多个领域引起了广泛关注。与生成对抗网络或其他基于似然的模型不同，这些模型专注于建模对数概率密度函数的梯度，即分数函数。基于分数的模型的一个核心要素是多尺度噪声调度：数据逐渐添加多尺度高斯噪声，直到信号扩散成正态分布。随后，模型被训练来将正态分布转换为数据分布。这一过程理论上可以用马尔可夫链\[sohl2015deep,ho2020denoising\]或随机微分方程（SDEs）\[song2020score\]来解释。

多尺度噪声调度背后的机制引起了学界的广泛关注。近期的研究工作探讨了若干有趣的性质\[song2020score,chen2023importance,hoogeboom2022blurring,kingma2021variational\]。Chen等人\[chen2023importance\]揭示了图像尺寸与噪声调度之间的关系。P. Kingma等人\[kingma2021variational\]得出结论，扩散损失对信噪比函数SNR(t)的形状不敏感。Hoogeboom等人\[hoogeboom2022blurring\]探索了非各向同性噪声下的高斯扩散过程。在本文中，我们是首个研究扩散模型中类别频率与噪声调度之间关系的工作。

参见说明(a)
参见说明(b)
参见说明(c)
参见说明(d)

图1.1:样本密度可视化。(a) 干净样本密度。(b) 所有类别经等尺度噪声扰动后的带噪样本密度。(c) 经我们的类别频率引导（CFRG）噪声调度扰动后的带噪样本密度。低频类别由于低密度区域较大，更容易遭受分数估计不准确的问题。(d) 生成样本的质量随着类别频率的降低而下降。参见说明(a)
参见说明(b)
参见说明(c)
参见说明(d)

图1.2:数据分数∇xlog⁡p\(x\)\\nabla\_\{x\}\\log p\(x\)空间可视化。(a) 真实数据分数。(b) 使用干净样本估计的分数。(c) 使用所有类别经等尺度噪声扰动后的样本估计的分数。(d) 使用经我们的类别频率引导（CFRG）噪声调度扰动后的样本估计的分数。在(b)和(c)中，高频类别主导了估计的分数空间。通过CFRG噪声调度，我们在(d)中为低频类别获得了更平衡的估计分数空间。我们的动机。对于诸如NCSN\[song2019generative\]和DDPM\[ho2020denoising\]等基于分数的生成模型，生成样本的质量高度依赖于学习到的分数函数所估计的分数的精度。然而，分数估计可能出现不准确，特别是在低密度区域。尽管在主流生成模型\[ho2020denoising,song2020score\]中通过集成多尺度噪声调度来减少低密度区域，我们观察到低频类别仍然面临这一挑战。

我们在图1.1 (https://arxiv.org/html/2606.27696#S1.F1)和图1.2 (https://arxiv.org/html/2606.27696#S1.F2)中展示了一个两个高斯混合的简化示例。在图1(a) (https://arxiv.org/html/2606.27696#S1.F1.sf1)中，由于样本数量有限，低频类别表现出比高频类别更小的类内方差。引入高斯噪声后，如图1(b) (https://arxiv.org/html/2606.27696#S1.F1.sf2)所示，由此产生的带噪样本填充了低密度区域，其中p\(x\)≈0p\(x\)\\approx 0，对于这两个类别都是如此。然而，低频类别观察到明显更大的低密度区域，导致其分数估计不准确更为显著。另一个观察是高频类别在估计的分数空间中占据主导地位。如图2(b) (https://arxiv.org/html/2606.27696#S1.F2.sf2)和图2(c) (https://arxiv.org/html/2606.27696#S1.F2.sf3)所示，大多数数据点倾向于生成高频类别的样本，这可能阻碍低频类别的样本生成。图1(d) (https://arxiv.org/html/2606.27696#S1.F1.sf4)与这些发现一致：FID分数随着类别频率的降低而显著增加，表明低频类别样本质量远低于高频类别。

我们的解决方案。为了解决上述挑战，我们提出了一种类别频率引导（CFRG）噪声调度：噪声尺度应与类别频率成反比。通过对低频类别应用相对更大的噪声尺度，我们进一步有效地减少了它们的低密度区域，如图1(c) (https://arxiv.org/html/2606.27696#S1.F1.sf3)所示。此外，我们的CFRG噪声调度促进了更平衡的估计分数分布，如图2(d) (https://arxiv.org/html/2606.27696#S1.F2.sf4)所示。为了评估我们方法的有效性，我们在不平衡数据集上进行了实验，特别是长尾CIFAR\[krizhevsky2009learning\]和ImageNet\[imagenet\]。在图像生成任务上，我们在CIFAR-100-LT和ImageNet-LT上分别取得了5.14和2.33的FID分数，相比DDPM基线分别提高了2.24和0.76。此外，在图像分类任务中，利用我们CFRG模型生成的数据，在CIFAR-100-LT上的top-1准确率显著提升了9.22%。最后，我们展示了我们的方法可以通过文本到图像生成应用于视觉语言扩散模型。我们的主要贡献总结如下：

- •我们是首个系统研究多尺度噪声调度与类别频率之间关系的工作。针对低频类别，我们发现了两个问题：更大的低密度区域和不平衡的估计分数空间。
- •为了解决这些挑战，我们为扩散模型提出了一种类别频率引导（CFRG）噪声调度：噪声尺度应与类别频率成反比。
- •我们在不平衡数据集（即CIFAR-100-LT和ImageNet-LT）上的图像生成、图像分类和文本到图像生成等任务中验证了我们CFRG噪声调度的有效性。

## 2 相关工作

基于分数的生成模型。受非平衡统计物理学的启发，非平衡热力学（NET\[sohl2015deep\]）首次部署了一个由马尔可夫链定义的预设扩散过程，将数据逐步转换为随机噪声，然后通过训练逆扩散模型来逆转这一过程。噪声条件分数网络（NCSN）\[song2019generative\]提出通过建模对数概率密度函数的梯度（即分数函数）来学习数据分布。利用多尺度高斯噪声，通过分数匹配目标来学习分数函数，从而在推理时通过退火朗之万动力学\[parisi1981correlation\]生成新样本。DDPM\[ho2020denoising\]首次证明了扩散模型能够生成高质量样本。它还表明，扩散模型与训练过程中多个噪声水平下的去噪分数匹配等价，而在采样过程中与退火朗之万动力等价。后来，随机微分方程（SDEs）\[song2020score\]被引入基于分数的模型，统一了先前的基于分数的生成模型和DDPM方法。

不平衡数据学习。在现实场景中，数据通常遵循长尾分布，即少数类别拥有大量数据，而许多类别只拥有少量样本。在不平衡数据上训练时，模型在低频类别上的准确率极低。重采样\[byrd2019effect,buda2018systematic\]和重加权\[cui2019class\]是解决此问题的两种经典方法，但会损害表示学习。随后，分类器和表示学习被解耦以保持可泛化的表示\[kang2019decoupling\]。一些方法\[kang2019decoupling,wang2020long,cui2022reslt\]已经在高频和低频类别的性能之间取得了最佳权衡。最近，表示学习技术\[cui2021parametric,cui2023generalized,Cui\_2024\_CVPR,cui2024decoupled,11563882,cui2025generative,zhu2022balanced,du2024probabilistic\]也被开发出来以解决长尾识别问题，创造了新的最先进性能。除了长尾识别，区域重平衡\[cui2022region\]和中心坍塌正则化器\[zhong2023understanding\]探讨了语义分割中的不平衡学习。标签分布平滑（LDS）和特征分布平滑（FDS）\[yang2021delving\]研究了不平衡回归。类别平衡扩散模型（CBDM）\[qin2023class\]将对数调整\[menon2020long\]扩展到扩散模型以实现平衡生成。PoGDiff\[wang2026pogdiff\]专注于文本到图像生成，通过借鉴相邻条件的统计强度来重新平衡关于条件文本特征空间密度的学习。与现有工作不同，我们在本文中提出类别频率引导的噪声调度（CFRG），并通过减少低频类别的低样本密度区域来重新平衡关于带噪图像空间密度的图像生成学习。

## 3 方法

### 3.1 类别频率对估计分数∇xlog⁡p\(x\)\\nabla\_\{x\}\\log p\(x\)的影响

使用分数函数进行采样。基于分数的模型\[ho2020denoising,song2019generative,song2020score\]通过分数函数（即对数概率密度函数的梯度∇xlog⁡p\(x\)\\nabla\_\{x\}\\log p\(x\)）来学习数据分布的概率密度。借助于朗之万动力学\[parisi1981correlation\]，可以使用学习到的分数函数以迭代方式生成新样本，如下所示：

xi\+1=xi\+η∇xlog⁡p\(x\)\+2ηε,i=0,1,...,K,x\_\{i\+1\}=x\_\{i\}\+\\eta\\nabla\_\{x\}\\log p\(x\)\+\\sqrt\{2\\eta\}\\epsilon,i=0,1,\.\.\.,K,\(3.1\)其中x0∼π\(x\)x\_\{0\}\\sim\\pi\(x\)是先验分布，ε∼N\(0,I\)\\epsilon\\sim\\mathcal\{N\}\(\\mathbf\{0\},\\mathbf\{I\}\)，η→0\\eta\\to 0是步长，K→∞\\to\\infty是生成新样本的步数。NCSN\[song2019generative\]将采样过程扩展到具有多尺度噪声调度的退火朗之万动力学。

DDPM\[ho2020denoising\]中的马尔可夫链用于在推理时使用分数函数进行采样：

xt−1=11−σt\(xt\+σt∇xtlog⁡p\(xt\)\)\+βtε,x\_\{t\-1\}=\\frac\{1\}\{\\sqrt\{1\-\\sigma\_\{t\}\}\}\(x\_\{t\}\+\\sigma\_\{t\}\\nabla\_\{x\_\{t\}\}\\log p\(x\_\{t\}\)\)\+\\beta\_\{t\}\\epsilon,\(3.2\)其中0<σ1<σ2<...<σT<10<\\sigma\_\{1\}<\\sigma\_\{2\}<\.\.\.<\\sigma\_\{T\}<1是扩散过程中的多尺度噪声调度，最大时间步T=1000，xT∼N\(0,I\)x\_\{T\}\\sim\\mathcal\{N\}\(\\mathbf\{0\},\\mathbf\{I\}\)是先验分布，ε∼N\(0,I\)\\epsilon\\sim\\mathcal\{N\}\(\\mathbf\{0\},\\mathbf\{I\}\)，βt\\beta\_\{t\}是σ1:t\\sigma\_\{1:t\}的函数。式(3.2)的推导见附录A.1。

此外，扩散和逆扩散过程可以等价地用正向和反向随机微分方程（SDEs）\[song2020score\]表示。具体来说，在推理时使用逆SDE采样定义为：

dx=\[f\(x,t\)−g\(t\)2∇xlog⁡pt\(x\)\]dt\+g\(t\)dw ̄,dx=\[f\(x,t\)\-g\(t\)^\{2\}\\nabla\_\{x\}\\log p\_\{t\}\(x\)\]dt\+g\(t\)d\\overline\{w\},\(3.3\)其中\{x\(t\)\}t=0T\\\{x\(t\)\\\}\_\{t=0\}^\{T\}是一个扩散过程，具有连续变量t∈\[0,T\]t\\in\[0,T\]，f\(⋅,t\):Rd−\>Rdf\(\\cdot,t\):\\mathbb\{R\}^\{d\}\-\>\\mathbb\{R\}^\{d\}\)是向量值函数，称为x\(t\)x\(t\)的漂移系数，g\(t\)g\(t\)是标量函数，称为x\(t\)x\(t\)的扩散系数，pt\(x\)p\_\{t\}\(x\)是x\(t\)x\(t\)的概率密度，w ̄\\overline\{w\}是标准维纳过程。

低密度区域导致分数估计不准确。使用式(3.1)、式(3.2)和式(3.3)生成的样本质量高度依赖于学习到的分数函数∇xlog⁡p\(x\)\\nabla\_\{x\}\\log p\(x\)。然而，估计的分数常常不准确，特别是在初始采样阶段。这一现象是由于p\(x\)p\(x\)的低样本密度区域导致的，导致在以下目标下的训练不充分：

Ep\(x\)‖∇xlog⁡p\(x\)−sθ\(x\)‖22,\\mathbb\{E\}\_\{p\(x\)\}\|\|\\nabla\_\{x\}\\log p\(x\)\-s\_\{\\theta\}\(x\)\|\|\_\{2\}^\{2\},\(3.4\)其中sθs\_\{\\theta\}是用于分数估计的神经网络。由于无法获得真实的数据分数，通常通过分数匹配技术来实现。DDPM\[ho2020denoising\]中的损失函数也等价于式(3.4)，这在附录A.2中得到了理论证明。

为了减少低密度区域，最近的扩散模型\[song2019generative,ho2020denoising,song2020score\]采用了多尺度噪声扰动。随着噪声调度的递增0<σ1<σ2<...<σT<10<\\sigma\_\{1\}<\\sigma\_\{2\}<\.\.\.<\\sigma\_\{T\}<1

面向扩散模型的类频率引导噪声调度

相似文章

Spectral Guidance：灵活高效的扩散模型控制方法

基于信息论的无分类器引导与自适应调度优化

NoiseRater：用于扩散模型训练的元学习噪声评估

有色噪声扩散采样

阐明扩散概率模型的SNR-t偏差

提交意见反馈