DiffusionBench:扩散变换器的全面评估
摘要
研究人员引入了NanoGen,一个用于训练和评估扩散变换器的统一框架,并提出了DiffusionBench,一个结合了ImageNet类别条件和文本到图像生成的全面基准,以更好地评估生成建模的进展。
查看缓存全文
缓存时间: 2026/06/24 05:47
论文页面 - DiffusionBench:扩散Transformer的整体评估
来源:https://huggingface.co/papers/2606.24888
摘要
研究人员提出NanoGen,一个统一的扩散Transformer训练与评估框架,展示了在ImageNet类别条件生成之外进行综合基准测试的必要性,以评估生成建模的真正进展。
扩散Transformer(https://huggingface.co/papers?q=Diffusion%20transformer)(DiT(https://huggingface.co/papers?q=DiT))在图像生成(https://huggingface.co/papers?q=image%20generation)领域的研究已收敛到单一评估设定:在ImageNet(https://huggingface.co/papers?q=ImageNet)上的类别条件(https://huggingface.co/papers?q=dit)生成。尽管方法改进了FID(https://huggingface.co/papers?q=FID)及相关指标,但越来越不清楚这些改进是否反映了生成建模的真正进展。自然替代方案,即文本到图像(T2I)生成,被认为训练和评估成本过高或不方便,常常被跳过。我们认为这种看法已不再成立。我们引入NanoGen,一个统一的DiT(https://huggingface.co/papers?q=DiT)训练与评估框架。NanoGen在ImageNet(https://huggingface.co/papers?q=ImageNet)上匹配了最先进的DiT(https://huggingface.co/papers?q=DiT)基线,并且只需修改12行配置,就能训练出具有竞争力的文本到图像模型。目前它支持RAE、VAE、像素空间和MeanFlow扩散方法(https://huggingface.co/papers?q=diffusion%20methods),涵盖ImageNet(https://huggingface.co/papers?q=ImageNet)和T2I两种设定。在NanoGen下,训练T2I所需的计算资源与ImageNet(https://huggingface.co/papers?q=ImageNet)相当。在使用NanoGen训练了21个潜在扩散模型(https://huggingface.co/papers?q=latent%20diffusion%20models)后,我们观察到方法排名在ImageNet(https://huggingface.co/papers?q=ImageNet)和T2I生成之间缺乏强相关性:三项指标的皮尔逊相关系数在-0.377到-0.580之间。这表明,一种改进类别条件(https://huggingface.co/papers?q=dit)ImageNet(https://huggingface.co/papers?q=ImageNet)FID(https://huggingface.co/papers?q=FID)的方法,可能对T2I没有相应改进,清楚表明了在两项任务上评估DiT(https://huggingface.co/papers?q=DiT)的必要性。为此,我们总结了ImageNet(https://huggingface.co/papers?q=ImageNet)和文本到图像的结果,形成了DiffusionBench(https://huggingface.co/papers?q=DiffusionBench),一个用于DiT(https://huggingface.co/papers?q=DiT)研究的整体基准。我们建议用DiffusionBench(https://huggingface.co/papers?q=DiffusionBench)替代仅用ImageNet(https://huggingface.co/papers?q=ImageNet)进行报告:能改进DiffusionBench(https://huggingface.co/papers?q=DiffusionBench)的方法更可能反映更广泛的进步。
查看arXiv页面(https://arxiv.org/abs/2606.24888) 查看PDF(https://arxiv.org/pdf/2606.24888) 项目页面(https://end2end-diffusion.github.io/diffusion-bench/) GitHub36(https://github.com/End2End-Diffusion/diffusion-bench) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24888)
在你的代理中获取这篇论文:
hf papers read 2606.24888
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
在模型README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。
引用此论文的数据集0
没有数据集链接到此论文
在数据集README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。
引用此论文的Space0
没有Space链接到此论文
在Space README.md中引用arxiv.org/abs/2606.24888以从此页面链接它。
包含此论文的收藏0
没有包含此论文的收藏
将此论文添加到一个收藏(https://huggingface.co/new-collection)中以从此页面链接它。
相似文章
DiffusionBench:迈向生成式扩散变换器的全面评估
介绍了DiffusionBench,这是一个统一的基准,用于全面评估生成式扩散变换器,支持多种生成任务,并提供标准化的训练与评估。
UniDDT: 通过解耦扩散变换器统一多模态理解与生成
UniDDT提出了一种解耦扩散变换器框架,通过利用Noisy ViT编码器和LLM进行语义编码,统一了多模态理解与生成,在两个任务上均取得了强劲性能。
MMDiff: 扩展扩散变换器以实现多模态生成
MMDiff 通过轻量级解码器将冻结的扩散变换器扩展为多模态生成系统,通过多时间步特征融合,在语义分割和其他感知任务上实现了显著改进。
扩散语言模型:实验分析
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
扩散检测:用于无监督IC异常检测的生成式扩散模型
提出了首个使用 Diffusion Transformer 进行IC潜在缺陷筛选的无监督异常检测框架,在工业16纳米测试数据上取得了最先进的性能。