DiffusionBench:扩散变换器的全面评估

Hugging Face Daily Papers 论文

摘要

研究人员引入了NanoGen,一个用于训练和评估扩散变换器的统一框架,并提出了DiffusionBench,一个结合了ImageNet类别条件和文本到图像生成的全面基准,以更好地评估生成建模的进展。

扩散变换器(DiT)在图像生成方面的研究已收敛于单一的评估设置:在ImageNet上的类别条件生成。尽管方法改进了FID及相关指标,但越来越不清楚它们是否反映了生成建模的真实进展。另一种自然的选择,即文本到图像(T2I)生成,被认为训练和评估成本过高或不便,因此常被忽略。我们认为这种看法已不再成立。我们引入了NanoGen,一个统一的DiT训练和评估框架。NanoGen在ImageNet上匹配了最先进的DiT基线,并且仅需修改12行配置,也能训练出具有竞争力的文本到图像模型。它目前支持RAE、VAE、像素空间和MeanFlow扩散方法,适用于ImageNet和T2I两种设置。在NanoGen下,训练T2I所需的计算量与ImageNet相当。在使用NanoGen训练了21个潜在扩散模型后,我们观察到方法排名在ImageNet和T2I生成之间没有强相关性:三个指标上的皮尔逊相关系数在-0.377到-0.580之间。这表明,一个在类别条件ImageNet FID上有所改进的方法可能在T2I上没有相应的改进,这清楚地表明在两个任务上评估DiT的必要性。为此,我们总结了ImageNet和文本到图像的结果,从而产生了DiffusionBench,一个用于DiT研究的全面基准。我们建议报告DiffusionBench而非仅报告ImageNet:那些能改进DiffusionBench的方法更可能反映出更广泛的进展。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:47

论文页面 - DiffusionBench:扩散Transformer的整体评估

来源:https://huggingface.co/papers/2606.24888

摘要

研究人员提出NanoGen,一个统一的扩散Transformer训练与评估框架,展示了在ImageNet类别条件生成之外进行综合基准测试的必要性,以评估生成建模的真正进展。

扩散Transformer(https://huggingface.co/papers?q=Diffusion%20transformer)(DiT(https://huggingface.co/papers?q=DiT))在图像生成(https://huggingface.co/papers?q=image%20generation)领域的研究已收敛到单一评估设定:在ImageNet(https://huggingface.co/papers?q=ImageNet)上的类别条件(https://huggingface.co/papers?q=dit)生成。尽管方法改进了FID(https://huggingface.co/papers?q=FID)及相关指标,但越来越不清楚这些改进是否反映了生成建模的真正进展。自然替代方案,即文本到图像(T2I)生成,被认为训练和评估成本过高或不方便,常常被跳过。我们认为这种看法已不再成立。我们引入NanoGen,一个统一的DiT(https://huggingface.co/papers?q=DiT)训练与评估框架。NanoGen在ImageNet(https://huggingface.co/papers?q=ImageNet)上匹配了最先进的DiT(https://huggingface.co/papers?q=DiT)基线,并且只需修改12行配置,就能训练出具有竞争力的文本到图像模型。目前它支持RAE、VAE、像素空间和MeanFlow扩散方法(https://huggingface.co/papers?q=diffusion%20methods),涵盖ImageNet(https://huggingface.co/papers?q=ImageNet)和T2I两种设定。在NanoGen下,训练T2I所需的计算资源与ImageNet(https://huggingface.co/papers?q=ImageNet)相当。在使用NanoGen训练了21个潜在扩散模型(https://huggingface.co/papers?q=latent%20diffusion%20models)后,我们观察到方法排名在ImageNet(https://huggingface.co/papers?q=ImageNet)和T2I生成之间缺乏强相关性:三项指标的皮尔逊相关系数在-0.377到-0.580之间。这表明,一种改进类别条件(https://huggingface.co/papers?q=dit)ImageNet(https://huggingface.co/papers?q=ImageNet)FID(https://huggingface.co/papers?q=FID)的方法,可能对T2I没有相应改进,清楚表明了在两项任务上评估DiT(https://huggingface.co/papers?q=DiT)的必要性。为此,我们总结了ImageNet(https://huggingface.co/papers?q=ImageNet)和文本到图像的结果,形成了DiffusionBench(https://huggingface.co/papers?q=DiffusionBench),一个用于DiT(https://huggingface.co/papers?q=DiT)研究的整体基准。我们建议用DiffusionBench(https://huggingface.co/papers?q=DiffusionBench)替代仅用ImageNet(https://huggingface.co/papers?q=ImageNet)进行报告:能改进DiffusionBench(https://huggingface.co/papers?q=DiffusionBench)的方法更可能反映更广泛的进步。

查看arXiv页面(https://arxiv.org/abs/2606.24888) 查看PDF(https://arxiv.org/pdf/2606.24888) 项目页面(https://end2end-diffusion.github.io/diffusion-bench/) GitHub36(https://github.com/End2End-Diffusion/diffusion-bench) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24888)

在你的代理中获取这篇论文:

hf papers read 2606.24888

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接它。

相似文章

MMDiff: 扩展扩散变换器以实现多模态生成

Hugging Face Daily Papers

MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。

扩散语言模型:实验分析

arXiv cs.AI

一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。