跨尺度对齐监督训练GANs

Hugging Face Daily Papers 2026/05/26 00:00 论文

摘要

本文提出CAT，一种跨尺度对齐变换器，通过强制中间GAN输出与最终输出之间的一致性来解决轨迹错位问题，在ImageNet-256上实现了1.56的最优FID。

现代生成对抗网络通常对生成器的中间输出施加对抗性监督，并将由此产生的多阶段合成解释为从粗到细的层级生成。在这项工作中，我们挑战了这一解释。我们认为，标准的逐尺度对抗监督并未构建出恰当的从粗到细的层级结构：每个中间图像独立地被推向其对应分辨率下的真实分布，但这种尺度层面的真实性并不能保证不同阶段的输出代表相同的生成样本。此外，每个阶段生成的特定尺度图像并未被用作后续阶段的明确细化目标。因此，其对抗性损失可以改进某一尺度的输出，但不会约束后期阶段保持相同的样本轨迹，从而允许它们转向不同的样本，而不是细化先前的输出。我们将此问题称为跨尺度轨迹错位问题。为解决此问题，我们提出了CAT（跨尺度对齐变换器），用于多尺度对抗生成。CAT保持判别器的尺度性，使得每个中间输出在其自身分辨率下被评估，同时添加一个简单的生成器端一致性正则化，将中间输出与最终输出对齐。在类别条件ImageNet-256上，CAT-H/2在仅训练60个轮次后，通过一步推理实现了1.56的FID-50K，优于强大的单步GAN和扩散/流基线。

查看原文

查看缓存全文

缓存时间: 2026/05/27 02:48

论文页面 - 跨尺度对齐监督训练生成对抗网络

来源：https://huggingface.co/papers/2605.26449

摘要

标准生成对抗网络（GAN）在中间输出上施加对抗性监督，无法在尺度间保持一致的样本轨迹，导致错位问题；一种名为CAT的新型基于Transformer的方法通过强制中间输出与最终输出之间的一致性解决了这一问题。

现代GAN（https://huggingface.co/papers?q=GANs）常常在中间生成器输出上引入对抗性监督（https://huggingface.co/papers?q=adversarial%20supervision），并将由此产生的多阶段合成（https://huggingface.co/papers?q=multi-stage%20synthesis）解释为从粗到细的分层生成。在这项工作中，我们对这一解释提出质疑。我们认为，标准的尺度级对抗性监督（https://huggingface.co/papers?q=adversarial%20supervision）并未构建出恰当的从粗到细层级结构（https://huggingface.co/papers?q=coarse-to-fine%20hierarchy）：每个中间图像都被独立地推向其自身分辨率下的真实分布，但这种尺度级真实性（https://huggingface.co/papers?q=scale-wise%20realism）并不能确保各阶段的输出代表相同的生成样本。此外，每个阶段产生的特定尺度图像并未被用作随后阶段的显式细化目标。因此，其对抗损失可以改善某个尺度特定的输出，而不约束后续阶段保持相同的样本轨迹，从而使它们可能转向不同的样本，而不是细化先前的输出。我们将此问题称为跨尺度轨迹错位（https://huggingface.co/papers?q=cross-scale%20trajectory%20misalignment）问题。为解决这一问题，我们提出了CAT，一种用于多尺度对抗性生成的跨尺度对齐Transformer（https://huggingface.co/papers?q=Cross-scale%20Aligned%20Transformer）。CAT保持判别器的尺度级特性，因此每个中间输出都在其自身分辨率下被评估，同时增加了一个简单的生成器侧一致性正则化（https://huggingface.co/papers?q=generator-side%20consistency%20regularization），将中间输出与最终输出对齐。在类条件ImageNet-256（https://huggingface.co/papers?q=ImageNet-256）上，CAT-H/2仅经过60个训练周期，一步推理就达到了1.56的FID-50K（https://huggingface.co/papers?q=FID-50K），优于强大的单步GAN和扩散/流基线。

查看arXiv页面（https://arxiv.org/abs/2605.26449）查看PDF（https://arxiv.org/pdf/2605.26449）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.26449）

在您的智能体中获取此论文：

hf papers read 2605.26449

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.26449以从本页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.26449以从本页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.26449以从本页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从本页面链接。

跨尺度对齐监督训练GANs

论文页面 - 跨尺度对齐监督训练生成对抗网络

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

使用最优传输改进 GANs

TriHead-GAN：一种具有三头判别器的生成对抗网络，用于碳排放时间序列生成

改进的一致性模型训练技术

GRASP: 面向可扩展预训练数据归因的几何感知残差对齐

监督微调中涌现错位的特征空间监测

提交意见反馈