重新思考扩散Transformer中的跨层信息路由

Hugging Face Daily Papers 论文

摘要

本文提出扩散自适应路由(DAR),这是一种可学习的、时间步自适应的残差替换方法,旨在改善扩散Transformer中的跨层信息流动,从而显著加速训练并提升质量。

扩散Transformer(DiTs)已成为现代视觉生成的事实骨干网络,其设计的几乎每个主要方面——分词、注意力机制、条件化、目标函数和潜在自编码器——都已得到广泛重新审视。然而,控制信息在各层之间累积的残差流却直接继承自原始Transformer。本文对DiTs中的跨层信息流进行了系统的实证分析,同时考虑深度和去噪时间步维度,并识别出传统残差相加的三个具体症状:单调前向幅度膨胀、急剧反向梯度衰减以及显著的逐块冗余。基于这一诊断,我们提出了扩散自适应路由(DAR),这是一种即插即用的残差替换方法,能够对子层输出的历史进行可学习、时间步自适应且非增量的聚合。此外,所提出的DAR与许多现代Transformer增强方法(如REPA)兼容。在ImageNet 256×256上,DAR将SiT-XL/2的FID提升了2.11(7.56 vs. 9.67),并且仅需8.75倍更少的训练迭代即可达到基线收敛质量。叠加在REPA之上,它在早期阶段实现了2倍训练加速,表明跨层信息路由是扩散建模中一个尚未充分探索的设计轴,且与现有的表示对齐目标正交。除了预训练,DAR还可应用于大规模T2I模型的微调阶段,并在分布匹配蒸馏过程中保留高频细节。
查看原文
查看缓存全文

缓存时间: 2026/05/25 06:36

论文页面 - 重新思考扩散Transformer中的跨层信息路由

来源:https://huggingface.co/papers/2605.20708

摘要

扩散Transformer存在传统残差连接无法解决的低效跨层信息流动问题,为此我们引入了一种可学习的、时间步自适应的路由机制,从而提升了训练效率与模型质量。

扩散Transformer(https://huggingface.co/papers?q=Diffusion%20Transformers)(DiTs)已成为现代视觉生成的事实标准骨干,其设计中的几乎每个主要维度—— token化、注意力机制、条件控制、目标函数以及潜在自编码器——都已被广泛重新审视。然而,决定信息如何在层间累积的残差流(https://huggingface.co/papers?q=residual%20stream)却直接继承自原始Transformer。本文对DiT中的跨层信息流(https://huggingface.co/papers?q=cross-layer%20information%20flow)沿深度和去噪时间步(https://huggingface.co/papers?q=denoising%20timestep)两个方向进行了系统的实证分析,并识别出传统残差加法(https://huggingface.co/papers?q=residual%20addition)的三个具体症状:单调的前向幅度膨胀、剧烈的反向梯度衰减以及显著的逐块冗余。受此诊断启发,我们提出扩散自适应路由(https://huggingface.co/papers?q=Diffusion-Adaptive%20Routing)(DAR),这是一种即插即用的残差替代方案,通过可学习、时间步自适应且非累加的方式聚合子层输出的历史信息。此外,DAR与许多现代Transformer增强方法(如REPA(https://huggingface.co/papers?q=REPA))兼容。在ImageNet 256×256上,DAR将SiT-XL/2的FID(https://huggingface.co/papers?q=FID)提升了2.11(7.56 vs. 9.67),并且在训练迭代次数减少8.75倍的情况下达到了基线收敛质量。叠加在REPA(https://huggingface.co/papers?q=REPA)之上,DAR在早期阶段实现了2倍的训练加速,这表明跨层信息路由是扩散建模中一个未被充分探索的设计维度,其与现有的表示对齐目标正交运作。除预训练外,DAR还可应用于大规模T2I模型的微调阶段,并在分布匹配蒸馏(https://huggingface.co/papers?q=Distribution%20Matching%20Distillation)过程中保留高频细节。

查看arXiv页面(https://arxiv.org/abs/2605.20708) 查看PDF(https://arxiv.org/pdf/2605.20708) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.20708)

在你的代理中获取此论文:

hf papers read 2605.20708

没有最新命令行工具?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。

引用此论文的 Space 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。

包含此论文的收藏 1

相似文章

学习的中继表示用于前瞻性离散扩散模型

arXiv cs.LG

本文介绍了学习的中继表示(Relay),一种使掩码扩散模型能够在去噪步骤之间传播潜在信息的方法,克服了硬重置问题并改善了性能-延迟权衡。该方法在编码任务上优于标准的监督微调,同时将推理延迟降低高达32%。

Delta Attention Residuals

Hugging Face Daily Papers

Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。

学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力

Reddit r/artificial

本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。