跨尺度对齐监督训练GANs
摘要
本文提出CAT,一种跨尺度对齐变换器,通过强制中间GAN输出与最终输出之间的一致性来解决轨迹错位问题,在ImageNet-256上实现了1.56的最优FID。
查看缓存全文
缓存时间: 2026/05/27 02:48
论文页面 - 跨尺度对齐监督训练生成对抗网络
来源:https://huggingface.co/papers/2605.26449
摘要
标准生成对抗网络(GAN)在中间输出上施加对抗性监督,无法在尺度间保持一致的样本轨迹,导致错位问题;一种名为CAT的新型基于Transformer的方法通过强制中间输出与最终输出之间的一致性解决了这一问题。
现代GAN(https://huggingface.co/papers?q=GANs)常常在中间生成器输出上引入对抗性监督(https://huggingface.co/papers?q=adversarial%20supervision),并将由此产生的多阶段合成(https://huggingface.co/papers?q=multi-stage%20synthesis)解释为从粗到细的分层生成。在这项工作中,我们对这一解释提出质疑。我们认为,标准的尺度级对抗性监督(https://huggingface.co/papers?q=adversarial%20supervision)并未构建出恰当的从粗到细层级结构(https://huggingface.co/papers?q=coarse-to-fine%20hierarchy):每个中间图像都被独立地推向其自身分辨率下的真实分布,但这种尺度级真实性(https://huggingface.co/papers?q=scale-wise%20realism)并不能确保各阶段的输出代表相同的生成样本。此外,每个阶段产生的特定尺度图像并未被用作随后阶段的显式细化目标。因此,其对抗损失可以改善某个尺度特定的输出,而不约束后续阶段保持相同的样本轨迹,从而使它们可能转向不同的样本,而不是细化先前的输出。我们将此问题称为跨尺度轨迹错位(https://huggingface.co/papers?q=cross-scale%20trajectory%20misalignment)问题。为解决这一问题,我们提出了CAT,一种用于多尺度对抗性生成的跨尺度对齐Transformer(https://huggingface.co/papers?q=Cross-scale%20Aligned%20Transformer)。CAT保持判别器的尺度级特性,因此每个中间输出都在其自身分辨率下被评估,同时增加了一个简单的生成器侧一致性正则化(https://huggingface.co/papers?q=generator-side%20consistency%20regularization),将中间输出与最终输出对齐。在类条件ImageNet-256(https://huggingface.co/papers?q=ImageNet-256)上,CAT-H/2仅经过60个训练周期,一步推理就达到了1.56的FID-50K(https://huggingface.co/papers?q=FID-50K),优于强大的单步GAN和扩散/流基线。
查看arXiv页面(https://arxiv.org/abs/2605.26449)查看PDF(https://arxiv.org/pdf/2605.26449)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26449)
在您的智能体中获取此论文:
hf papers read 2605.26449
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.26449以从本页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.26449以从本页面链接。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.26449以从本页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。
相似文章
使用最优传输改进 GANs
OT-GAN 提出了一种新颖的 GAN 变体,在对抗学习的特征空间中结合最优传输和能量距离,以提高训练稳定性和图像生成质量。该方法在基准问题上展示了最先进的结果,使用大批量数据实现了稳定的训练。
TriHead-GAN:一种具有三头判别器的生成对抗网络,用于碳排放时间序列生成
提出了TriHead-GAN,一种基于Transformer的GAN,其采用三头判别器,联合监督分布真实性、跨变量依赖性和时间平滑性,以生成逼真的碳排放时间序列,在多个数据集上优于基线方法。
改进的一致性模型训练技术
OpenAI 展示了改进的一致性模型训练技术,无需蒸馏即可实现高质量单步图像生成,通过新型损失函数和训练策略在 CIFAR-10 和 ImageNet 64×64 上取得显著的 FID 改进。
GRASP: 面向可扩展预训练数据归因的几何感知残差对齐
GRASP 提出了一种几何感知、基于交互的可扩展预训练数据归因方法,该方法对子集动态进行建模,在任务级秩相关上比现有加性方法提升超过两倍,同时降低了计算成本。
监督微调中涌现错位的特征空间监测
本文提出了一种特征空间监测方法,通过在激活空间中跟踪表示漂移来检测LLM在监督微调期间的涌现错位,实现了0.990的AUROC,假阳性率和假阴性率低,优于无监督基线。