DiffusionBench：扩散变换器的全面评估

Hugging Face Daily Papers 2026/06/23 00:00 论文

diffusion-transformers evaluation benchmark image-generation text-to-image generative-modeling nanogen

摘要

研究人员引入了NanoGen，一个用于训练和评估扩散变换器的统一框架，并提出了DiffusionBench，一个结合了ImageNet类别条件和文本到图像生成的全面基准，以更好地评估生成建模的进展。

扩散变换器（DiT）在图像生成方面的研究已收敛于单一的评估设置：在ImageNet上的类别条件生成。尽管方法改进了FID及相关指标，但越来越不清楚它们是否反映了生成建模的真实进展。另一种自然的选择，即文本到图像（T2I）生成，被认为训练和评估成本过高或不便，因此常被忽略。我们认为这种看法已不再成立。我们引入了NanoGen，一个统一的DiT训练和评估框架。NanoGen在ImageNet上匹配了最先进的DiT基线，并且仅需修改12行配置，也能训练出具有竞争力的文本到图像模型。它目前支持RAE、VAE、像素空间和MeanFlow扩散方法，适用于ImageNet和T2I两种设置。在NanoGen下，训练T2I所需的计算量与ImageNet相当。在使用NanoGen训练了21个潜在扩散模型后，我们观察到方法排名在ImageNet和T2I生成之间没有强相关性：三个指标上的皮尔逊相关系数在-0.377到-0.580之间。这表明，一个在类别条件ImageNet FID上有所改进的方法可能在T2I上没有相应的改进，这清楚地表明在两个任务上评估DiT的必要性。为此，我们总结了ImageNet和文本到图像的结果，从而产生了DiffusionBench，一个用于DiT研究的全面基准。我们建议报告DiffusionBench而非仅报告ImageNet：那些能改进DiffusionBench的方法更可能反映出更广泛的进展。

查看原文

查看缓存全文

缓存时间: 2026/06/24 05:47

论文页面 - DiffusionBench：扩散Transformer的整体评估

来源：https://huggingface.co/papers/2606.24888

摘要

研究人员提出NanoGen，一个统一的扩散Transformer训练与评估框架，展示了在ImageNet类别条件生成之外进行综合基准测试的必要性，以评估生成建模的真正进展。

扩散Transformer（https://huggingface.co/papers?q=Diffusion%20transformer）（DiT（https://huggingface.co/papers?q=DiT））在图像生成（https://huggingface.co/papers?q=image%20generation）领域的研究已收敛到单一评估设定：在ImageNet（https://huggingface.co/papers?q=ImageNet）上的类别条件（https://huggingface.co/papers?q=dit）生成。尽管方法改进了FID（https://huggingface.co/papers?q=FID）及相关指标，但越来越不清楚这些改进是否反映了生成建模的真正进展。自然替代方案，即文本到图像（T2I）生成，被认为训练和评估成本过高或不方便，常常被跳过。我们认为这种看法已不再成立。我们引入NanoGen，一个统一的DiT（https://huggingface.co/papers?q=DiT）训练与评估框架。NanoGen在ImageNet（https://huggingface.co/papers?q=ImageNet）上匹配了最先进的DiT（https://huggingface.co/papers?q=DiT）基线，并且只需修改12行配置，就能训练出具有竞争力的文本到图像模型。目前它支持RAE、VAE、像素空间和MeanFlow扩散方法（https://huggingface.co/papers?q=diffusion%20methods），涵盖ImageNet（https://huggingface.co/papers?q=ImageNet）和T2I两种设定。在NanoGen下，训练T2I所需的计算资源与ImageNet（https://huggingface.co/papers?q=ImageNet）相当。在使用NanoGen训练了21个潜在扩散模型（https://huggingface.co/papers?q=latent%20diffusion%20models）后，我们观察到方法排名在ImageNet（https://huggingface.co/papers?q=ImageNet）和T2I生成之间缺乏强相关性：三项指标的皮尔逊相关系数在-0.377到-0.580之间。这表明，一种改进类别条件（https://huggingface.co/papers?q=dit）ImageNet（https://huggingface.co/papers?q=ImageNet）FID（https://huggingface.co/papers?q=FID）的方法，可能对T2I没有相应改进，清楚表明了在两项任务上评估DiT（https://huggingface.co/papers?q=DiT）的必要性。为此，我们总结了ImageNet（https://huggingface.co/papers?q=ImageNet）和文本到图像的结果，形成了DiffusionBench（https://huggingface.co/papers?q=DiffusionBench），一个用于DiT（https://huggingface.co/papers?q=DiT）研究的整体基准。我们建议用DiffusionBench（https://huggingface.co/papers?q=DiffusionBench）替代仅用ImageNet（https://huggingface.co/papers?q=ImageNet）进行报告：能改进DiffusionBench（https://huggingface.co/papers?q=DiffusionBench）的方法更可能反映更广泛的进步。

查看arXiv页面（https://arxiv.org/abs/2606.24888）查看PDF（https://arxiv.org/pdf/2606.24888）项目页面（https://end2end-diffusion.github.io/diffusion-bench/） GitHub36（https://github.com/End2End-Diffusion/diffusion-bench）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.24888）

在你的代理中获取这篇论文：

hf papers read 2606.24888

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。

引用此论文的Space0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到一个收藏（https://huggingface.co/new-collection）中以从此页面链接它。

DiffusionBench：扩散变换器的全面评估

论文页面 - DiffusionBench：扩散Transformer的整体评估

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏0

相似文章

DiffusionBench：迈向生成式扩散变换器的全面评估

UniDDT: 通过解耦扩散变换器统一多模态理解与生成

MMDiff: 扩展扩散变换器以实现多模态生成

扩散语言模型：实验分析

扩散检测：用于无监督IC异常检测的生成式扩散模型

提交意见反馈