基于信息论的无分类器引导与自适应调度优化

arXiv cs.LG 2026/06/24 04:00 论文

摘要

提出了一种基于信息论的框架，用于优化扩散模型中的无分类器引导调度，在ImageNet和COCO基准上实现了条件一致性与样本多样性之间更优的权衡。

arXiv:2606.24025v1 Announce Type: new 摘要：扩散模型在图像、文本到图像和视频生成中取得了显著性能，其中条件生成通常通过无分类器引导（CFG）来控制。CFG通过增加引导权重来提高条件一致性，但更强的引导通常会降低多样性和分布覆盖。目前尚不清楚这种一致性与覆盖率的权衡应如何在反向轨迹中进行控制，因为CFG诱导的分布并非简单由引导得分场给出的固定时间倾斜分布。为解决此问题，我们提出了一种基于信息论的CFG调度优化框架。我们的方法使用一个干净的终点参考来指定所需的一致性与覆盖率权衡，同时优化由引导采样器产生的实际分布，使其接近该参考。我们推导了轨迹级公式，用于从样本和得分评估中估计目标，从而避免显式密度估计。在ImageNet-512（使用EDM-XXL）和COCO（使用SD-XL）上，学习到的调度相比于恒定引导实现了有竞争力或更优的权衡，并在不同噪声级别上选择性分配引导。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:50

# 基于信息论的无分类器引导与自适应调度优化 来源：https://arxiv.org/html/2606.24025 Haobo Chen 加州大学圣塔芭芭拉分校 计算机科学系 haobo@ucsb\.edu &Xiangxiang Xu 罗切斯特大学 计算机科学系 xiangxiangxu@rochester\.edu &Yuheng Bu 加州大学圣塔芭芭拉分校 计算机科学系 buyuheng@ucsb\.edu ###### 摘要 扩散模型在图像、文本到图像以及视频生成中取得了显著性能，其中条件生成通常由无分类器引导\(CFG\)控制。CFG通过增加引导权重来提升条件一致性，但更强的引导通常会降低多样性和分布覆盖范围。目前尚不清楚在反向轨迹中应如何控制这种一致性-覆盖率的权衡，因为由CFG诱导的分布并非简单地由引导得分场给出的固定时间倾斜分布。为解决此问题，我们提出了一种用于CFG调度优化的信息论框架。我们的方法使用一个清晰的端点参考来指定所需的一致性-覆盖率权衡，同时将引导采样器实际诱导的分布向该参考优化。我们推导出轨迹级别的公式，以便从样本和得分评估中估计目标函数，避免了显式的密度估计。在基于EDM-XXL的ImageNet-512和基于SD-XL的COCO上，学习到的调度与恒定引导相比实现了具有竞争力或更优的权衡，并能跨噪声级别选择性分配引导。 ## 1 引言 扩散模型已成为一种强大的生成建模范式。基于去噪扩散和基于得分的公式[35 (https://arxiv.org/html/2606.24025#bib.bib9),14 (https://arxiv.org/html/2606.24025#bib.bib10),37 (https://arxiv.org/html/2606.24025#bib.bib3),38 (https://arxiv.org/html/2606.24025#bib.bib4)]，它们在许多领域都取得了强劲的性能。在图像生成中，潜在扩散模型通过将扩散过程转移到学习到的潜在空间[33 (https://arxiv.org/html/2606.24025#bib.bib12)]实现了高分辨率合成，而近期的大规模系统进一步改进了文本到图像和超高分辨率图像生成[29 (https://arxiv.org/html/2606.24025#bib.bib13),41 (https://arxiv.org/html/2606.24025#bib.bib14)]。超越图像领域，扩散模型已被扩展到多模态生成[34 (https://arxiv.org/html/2606.24025#bib.bib15),31 (https://arxiv.org/html/2606.24025#bib.bib16),15 (https://arxiv.org/html/2606.24025#bib.bib17),13 (https://arxiv.org/html/2606.24025#bib.bib18),1 (https://arxiv.org/html/2606.24025#bib.bib20)]。 扩散模型的许多实际用途来自于条件生成，其中样本必须遵循类别标签、文本提示或其他结构化条件。这种控制对于现代图像、文本到图像和视频生成系统至关重要，其成功不仅取决于质量，还取决于与指定条件的一致性对齐。无分类器引导\(CFG\)已成为改进此类条件生成的最广泛使用的机制之一[16 (https://arxiv.org/html/2606.24025#bib.bib5)]，它建立在早期的分类器引导采样[7 (https://arxiv.org/html/2606.24025#bib.bib6)]基础之上。具体来说，CFG通过一个引导权重ww来组合条件得分和无条件得分估计。较大的ww通常能改善条件一致性和感知质量，但这通常以降低多样性和分布覆盖范围为代价。图1 (https://arxiv.org/html/2606.24025#S1.F1)定性说明了这种效应。比较CFG列显示，增加恒定引导ww并非简单地细化由较低引导生成的样本；它可以改变全局构图、风格和物体布局，同时将不同样本推向相似的视觉模式并降低多样性。这种微妙的权衡促使人们探索超越单一恒定引导权重的方法。一些工作表明，仅在选定的噪声区间上应用引导，可以在整个反向过程中改善样本质量和分布覆盖，优于恒定引导[24 (https://arxiv.org/html/2606.24025#bib.bib24)]。一些自适应和学习的引导调度方法进一步使用依赖于时间的权重来平衡提示对齐和图像质量[27 (https://arxiv.org/html/2606.24025#bib.bib36),8 (https://arxiv.org/html/2606.24025#bib.bib26)]。先前的阶段分析表明，CFG在不同噪声级别上可能具有定性的不同效应，包括早期的方向变化、中期的模式分离和后期的集中[18 (https://arxiv.org/html/2606.24025#bib.bib27)]。较弱的生成模型也可用作引导参考来改善生成[20 (https://arxiv.org/html/2606.24025#bib.bib23)]。然而，选择引导调度的一种原则性方法仍不清楚。 主要困难在于描述CFG实际诱导的分布。在固定时刻，CFG类似于向条件方向的分布倾斜，但其样本由整个反向轨迹生成，不一定符合这种固定时刻的倾斜解释[3 (https://arxiv.org/html/2606.24025#bib.bib7),4 (https://arxiv.org/html/2606.24025#bib.bib8),28 (https://arxiv.org/html/2606.24025#bib.bib1)]。另一个实际挑战是生成的分布是隐式的：在生成过程中，我们通常只有样本和得分评估，而没有显式的密度，这使得基于一致性的目标函数难以直接估计。 参见标题 参见标题 图1：恒定引导与学习引导调度的定性比较。左图：ImageNet类别条件样本，分别使用w=1w=1、恒定引导w=3w=3以及我们学习的调度（λ=3\\lambda=3）。右图：针对提示“A man is in a kitchen making pizzas”的COCO文本到图像样本，比较恒定引导w=2w=2、恒定引导w=9w=9以及我们学习的调度（λ=9\\lambda=9）。 这引出了本文的核心问题：*我们能否通过优化一个平衡CFG实际诱导分布的覆盖范围和一致性的目标函数来学习CFG调度？* 我们通过使用一个清晰的端点参考来指定所需的一致性与覆盖率权衡，并优化引导采样器实际诱导的分布以接近该参考来解决此问题。由此产生的目标函数结合了两个在CFG实际分布下评估的量：一致性项，衡量生成样本与条件之间的对齐程度；以及覆盖率项，惩罚与原始数据分布的偏离。优化这个轨迹级别的目标函数会得到一个自适应的引导调度。如图1 (https://arxiv.org/html/2606.24025#S1.F1)所示，与较小的恒定引导相比，我们学习的调度改进了条件一致性，同时限制了与原始数据分布的过度偏离，并保持了与较大ww相比的多样性和覆盖率。 我们的主要贡献包括： - •我们使用一个清晰的端点参考来指定所需的一致性与覆盖率权衡，并将CFG调度优化表述为使引导采样器实际诱导的分布向该参考移动。 - •我们推导出轨迹级别的公式，用于从样本和得分评估中估计目标函数中的一致性和覆盖率项，无需显式密度估计。 - •我们开发了一种自适应调度优化方法，用于学习跨噪声级别的非均匀引导权重。在ImageNet-512和COCO上的实验表明，与恒定引导基线相比，一致性和覆盖率均得到改善。 ## 2 预备知识 ### 2\.1 扩散模型与无分类器引导\(CFG\) 我们考虑基于得分的扩散模型的方差爆炸\(VE\)公式[37 (https://arxiv.org/html/2606.24025#bib.bib3),38 (https://arxiv.org/html/2606.24025#bib.bib4)]。设\(X0,Y\)∼p0\(x0,y\)\(X\_\{0\},Y\)\\sim p\_\{0\}\(x\_\{0\},y\)表示RD×Y\\mathbb\{R\}^\{D\}\\times\\mathcal\{Y\}上的数据-标签分布。前向加噪过程为： Xt=X0\+σtZ,Z∼N\(0,ID\),Z⟂\(X0,Y\),t∈\[0,T\],X\_\{t\}=X\_\{0\}+\\sigma\_\{t\}Z,\\qquad Z\\sim\\mathcal\{N\}\(0,I\_\{D\}\),\\qquad Z\\perp\(X\_\{0\},Y\),\\qquad t\\in\[0,T\],\(1\)其中σ0=0\\sigma\_\{0\}=0且σt\\sigma\_\{t\}\)非递减。等价地， pt∣0\(xt∣x0\)=N\(xt;x0,σt2ID\)。p\_\{t\\mid 0\}\(x\_\{t\}\\mid x\_\{0\}\)=\\mathcal\{N\}\(x\_\{t\};x\_\{0\},\\sigma\_\{t\}^\{2\}I\_\{D\}\)。\(2\) 我们分别用pt\(xt\)p\_\{t\}\(x\_\{t\}\)和pt\(xt∣y\)p\_\{t\}\(x\_\{t\}\\mid y\)表示该前向过程在时间步tt处诱导的无条件和条件边缘分布。相应的得分由下式给出： stun\(xt\):=∇xtlog⁡pt\(xt\),stcon\(xt,y\):=∇xtlog⁡pt\(xt∣y\)。s\_\{t\}^\{\\mathrm\{un\}\}\(x\_\{t\}\):=\\nabla\_\{x\_\{t\}\}\\log p\_\{t\}\(x\_\{t\}\),\\qquad s\_\{t\}^\{\\mathrm\{con\}\}\(x\_\{t\},y\):=\\nabla\_\{x\_\{t\}\}\\log p\_\{t\}\(x\_\{t\}\\mid y\)。\(3\) 在VE参数化下，无条件生成从XT∼pTX\_\{T\}\\sim p\_\{T\}开始，并将概率流ODE向后积分到t=0t=0[38 (https://arxiv.org/html/2606.24025#bib.bib4)]： dXtdt=−σtσ ̇tstun\(Xt\),\\frac\{dX\_\{t\}\}\{dt\}=\-\\sigma\_\{t\}\\dot\{\\sigma\}\_\{t\}\\，s\_\{t\}^\{\\mathrm\{un\}\}\(X\_\{t\}\),\(4\)其中σ ̇t=dσt/dt\\dot\{\\sigma\}\_\{t\}=d\\sigma\_\{t\}/dt。类似地，条件生成的概率流ODE可以通过将stuns\_\{t\}^\{\\mathrm\{un\}\}替换为stcons\_\{t\}^\{\\mathrm\{con\}\}得到。 CFG[16 (https://arxiv.org/html/2606.24025#bib.bib5)]通过使用引导权重w≥0w\\geq 0来增强条件生成。受分类器引导[7 (https://arxiv.org/html/2606.24025#bib.bib6)]的启发，在每个固定噪声级别tt，它可以被解释为倾斜密度： qt,tiltw\(xt∣y\)∝pt\(xt\)pt\(y∣xt\)w。q\_\{t,\\mathrm\{tilt\}\}^\{w\}\(x\_\{t\}\\mid y\)\\propto p\_\{t\}\(x\_\{t\}\)\\，p\_\{t\}\(y\\mid x\_\{t\}\)^\{w\}。\(5\) 当w=1w=1时，这简化为标准条件分布pt\(xt∣y\)p\_\{t\}\(x\_\{t\}\\mid y\)。其得分场恢复为标准CFG场： stw\(xt,y\):=\(1−w\)stun\(xt\)\+wstcon\(xt,y\)。s\_\{t\}^\{w\}\(x\_\{t\},y\):=\(1\-w\)s\_\{t\}^\{\\mathrm\{un\}\}\(x\_\{t\}\)\+ws\_\{t\}^\{\\mathrm\{con\}\}\(x\_\{t\},y\)。\(6\) 将该引导场代入VE概率流ODE得到CFG采样动力学： dXtdt=−σtσ ̇tstw\(Xt,y\)。\\frac\{dX\_\{t\}\}\{dt\}=\-\\sigma\_\{t\}\\dot\{\\sigma\}\_\{t\}\\，s\_\{t\}^\{w\}\(X\_\{t\},y\)。\(7\) 我们记qtw\(xt∣y\)q\_\{t\}^\{w\}\(x\_\{t\}\\mid y\)为由引导ODE (7 (https://arxiv.org/html/2606.24025#S2.E7)) 诱导的边缘分布。对于时间依赖的调度w=\{wt\}t∈\[0,T\]\\mathbf\{w\}=\\\{w\_\{t\}\\\}\_\{t\\in\[0,T\]\}，我们将恒定引导权重替换为wtw\_\{t\}，得到： stw\(xt,y\)=\(1−wt\)stun\(xt\)\+wtstcon\(xt,y\)。s\_\{t\}^\{\\mathbf\{w\}\}\(x\_\{t\},y\)=\(1\-w\_\{t\}\)s\_\{t\}^\{\\mathrm\{un\}\}\(x\_\{t\}\)\+w\_\{t\}s\_\{t\}^\{\\mathrm\{con\}\}\(x\_\{t\},y\)。\(8\) 我们记qtw\(xt∣y\)q\_\{t\}^\{\\mathbf\{w\}\}\(x\_\{t\}\\mid y\)为由具有该时间依赖场的引导概率流ODE诱导的边缘分布。特别地，当wt≡ww\_\{t\}\\equiv w时，我们用qtwq\_\{t\}^\{w\}表示qtwq\_\{t\}^\{\\mathbf\{w\}\}。 ### 2\.2 CFG如何改变生成分布 参见标题图2：CFG和清晰端点倾斜的混合高斯可视化。左图展示了原始数据分布p0\(x\)p\_\{0\}\(x\)。在其他图中，彩色点表示CFG生成的样本，圆圈表示经验CFG均值，星形表示清晰参考q0,cleanw\(x0∣y\)∝p0\(x0\)p0\(y∣x0\)wq\_\{0,\\mathrm\{clean\}\}^\{w\}\(x\_\{0\}\\mid y\)\\propto p\_\{0\}\(x\_\{0\}\)p\_\{0\}\(y\\mid x\_\{0\}\)^\{w\}\)的均值。随着ww的增加，实际CFG样本的分离和集中程度比清晰参考更激进，说明CFG并非简单地实现直接的端点重加权。 CFG在条件生成中引入了一致性与覆盖率的权衡：更强的引导可以改善与条件的对齐，但可能会使生成分布偏离原始数据分布，从而降低覆盖率[16 (https://arxiv.org/html/2606.24025#bib.bib5)]。特别地，改变ww并非简单地使样本更具条件特异性同时保持接近原始数据分布；它通过整个反向轨迹重塑生成的分布。 为了说明这一点，我们考虑一个二维高斯混合示例。设Y∈\{±1\}Y\\in\\\{\\pm 1\\\}，先验概率相等，且原始条件分布为： p0\(x∣y\)=N\(x;μy,Σ\),x∈R2,μ1=\(0\.85,0\.55\),μ−1=−\(0\.85,0\.55\)。p\_\{0\}\(x\\mid y\)=\\mathcal\{N\}\(x;\\mu\_\{y\},\\Sigma\),\\qquad x\\in\\mathbb\{R\}^\{2\},\\qquad\\mu\_\{1\}=\(0\.85,0\.55\),\\qquad\\mu\_\{\-1\}=\-\(0\.85,0\.55\)。\(9\) 我们应用与 (1 (https://arxiv.org/html/2606.24025#S2.E1)) 相同的前向加噪过程，则加噪后的条件分布仍然是高斯分布pt\(xt∣y\)=N\(xt;μy,Σ\+σt2I2\)p\_\{t\}\(x\_\{t\}\\mid y\)=\\mathcal\{N\}\(x\_\{t\};\\mu\_\{y\},\\Sigma+\\sigma\_\{t\}^\{2\}I\_\{2\}\)，且stuns\_\{t\}^\{\\mathrm\{un\}\}和stcons\_\{t\}^\{\\mathrm\{con\}\}都可以解析计算。 (5 (https://arxiv.org/html/2606.24025#S2.E5)) 中的倾斜分布给出了每个噪声级别上CFG得分场的一个有用的重加权解释。由于样本在t=0t=0的清晰端点处评估，因此所需一致性-覆盖率权衡的一个自然参考是以下清晰端点倾斜分布： q0,cleanw\(x∣y\)∝p0\(x\)p0\(y∣x\)w。q\_\{0,\\mathrm\{clean\}\}^\{w\}\(x\\mid y\)\\propto p\_\{0\}\(x\)p\_\{0\}\(y\\mid x\)^\{w\}。\(10\) 然后我们检查实际生成的分布q0w\(x0∣y\)q\_\{0\}^\{w\}\(x\_\{0\}\\mid y\)是匹配原始分布p0\(x0∣y\)p\_\{0\}\(x\_\{0\}\\mid y\)还是匹配清晰参考q0,cleanw\(x0∣y\)q\_\{0,\\mathrm\{clean\}\}^\{w\}\(x\_\{0\}\\mid y\)。图2 (https://arxiv.org/html/2606.24025#S2.F2)显示CFG分布不匹配p0\(x0∣y\)p\_\{0\}\(x\_\{0\}\\mid y\)。随着ww的增加，CFG样本分离和集中得更激进。在适度的引导下，这种移动可以使经验CFG均值更接近相应的数据分量。对于较大的引导，例如w=5w=5，样本云变得过窄，一些样本移动到原始数据分布下的低概率区域。图2 (https://arxiv.org/html/2606.24025#S2.F2)中的星形显示了分布q0,cleanw\(x0∣y\)q\_\{0,\\mathrm\{clean\}\}^\{w\}\(x\_\{0\}\\mid y\)的均值。这个清晰参考主要抑制了两个分量重叠区域附近的概率质量，因此其均值移动相对温和，并保持更接近真实均值。相比之下，CFG沿着有噪的反向轨迹修改引导得分场。因此，尽管随着ww的增加，清晰端点倾斜和CFG都使条件样本更加分离，但q0w\(x0∣y\)q\_\{0\}^\{w\}\(x\_\{0\}\\mid y\)并不匹配q0,cleanw\(x0∣y\)q\_\{0,\\mathrm\{clean\}\}^\{w\}\(x\_\{0\}\\mid y\)。这个例子促使我们接下来形式化一个区别：固定时间重加权提供了对CFG的一种解释，但它并不能描述由引导反向动力学实际诱导的分布。 ### 2\.3 为什么调整CFG很困难 高斯混合示例突显了清晰参考q0,cleanw\(x0∣y\)q\_\{0,\\mathrm\{clean\}\}^\{w\}\(x\_\{0\}\\mid y\)与实际CFG分布q0w\(x0∣y\)q\_\{0\}^\{w\}\(x\_\{0\}\\mid y\)之间的不匹配。我们

基于信息论的无分类器引导与自适应调度优化

相似文章

Spectral Guidance：灵活高效的扩散模型控制方法

不破坏的引导：基于机制的离散扩散语言模型干预

面向多模态在线分布式工业异常检测的参数高效多类智能调度

线性约束下的条件扩散：Langevin 混合与信息论保证

面向组合奖励的流模型冲突感知加性引导

提交意见反馈