重新思考扩散Transformer中的跨层信息路由

Hugging Face Daily Papers 2026/05/20 00:00 论文

摘要

本文提出扩散自适应路由（DAR），这是一种可学习的、时间步自适应的残差替换方法，旨在改善扩散Transformer中的跨层信息流动，从而显著加速训练并提升质量。

扩散Transformer（DiTs）已成为现代视觉生成的事实骨干网络，其设计的几乎每个主要方面——分词、注意力机制、条件化、目标函数和潜在自编码器——都已得到广泛重新审视。然而，控制信息在各层之间累积的残差流却直接继承自原始Transformer。本文对DiTs中的跨层信息流进行了系统的实证分析，同时考虑深度和去噪时间步维度，并识别出传统残差相加的三个具体症状：单调前向幅度膨胀、急剧反向梯度衰减以及显著的逐块冗余。基于这一诊断，我们提出了扩散自适应路由（DAR），这是一种即插即用的残差替换方法，能够对子层输出的历史进行可学习、时间步自适应且非增量的聚合。此外，所提出的DAR与许多现代Transformer增强方法（如REPA）兼容。在ImageNet 256×256上，DAR将SiT-XL/2的FID提升了2.11（7.56 vs. 9.67），并且仅需8.75倍更少的训练迭代即可达到基线收敛质量。叠加在REPA之上，它在早期阶段实现了2倍训练加速，表明跨层信息路由是扩散建模中一个尚未充分探索的设计轴，且与现有的表示对齐目标正交。除了预训练，DAR还可应用于大规模T2I模型的微调阶段，并在分布匹配蒸馏过程中保留高频细节。

查看原文

查看缓存全文

缓存时间: 2026/05/25 06:36

论文页面 - 重新思考扩散Transformer中的跨层信息路由

来源：https://huggingface.co/papers/2605.20708

摘要

扩散Transformer存在传统残差连接无法解决的低效跨层信息流动问题，为此我们引入了一种可学习的、时间步自适应的路由机制，从而提升了训练效率与模型质量。

扩散Transformer（https://huggingface.co/papers?q=Diffusion%20Transformers）（DiTs）已成为现代视觉生成的事实标准骨干，其设计中的几乎每个主要维度—— token化、注意力机制、条件控制、目标函数以及潜在自编码器——都已被广泛重新审视。然而，决定信息如何在层间累积的残差流（https://huggingface.co/papers?q=residual%20stream）却直接继承自原始Transformer。本文对DiT中的跨层信息流（https://huggingface.co/papers?q=cross-layer%20information%20flow）沿深度和去噪时间步（https://huggingface.co/papers?q=denoising%20timestep）两个方向进行了系统的实证分析，并识别出传统残差加法（https://huggingface.co/papers?q=residual%20addition）的三个具体症状：单调的前向幅度膨胀、剧烈的反向梯度衰减以及显著的逐块冗余。受此诊断启发，我们提出扩散自适应路由（https://huggingface.co/papers?q=Diffusion-Adaptive%20Routing）（DAR），这是一种即插即用的残差替代方案，通过可学习、时间步自适应且非累加的方式聚合子层输出的历史信息。此外，DAR与许多现代Transformer增强方法（如REPA（https://huggingface.co/papers?q=REPA））兼容。在ImageNet 256×256上，DAR将SiT-XL/2的FID（https://huggingface.co/papers?q=FID）提升了2.11（7.56 vs. 9.67），并且在训练迭代次数减少8.75倍的情况下达到了基线收敛质量。叠加在REPA（https://huggingface.co/papers?q=REPA）之上，DAR在早期阶段实现了2倍的训练加速，这表明跨层信息路由是扩散建模中一个未被充分探索的设计维度，其与现有的表示对齐目标正交运作。除预训练外，DAR还可应用于大规模T2I模型的微调阶段，并在分布匹配蒸馏（https://huggingface.co/papers?q=Distribution%20Matching%20Distillation）过程中保留高频细节。

查看arXiv页面（https://arxiv.org/abs/2605.20708）查看PDF（https://arxiv.org/pdf/2605.20708）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.20708）

在你的代理中获取此论文：

hf papers read 2605.20708

没有最新命令行工具？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。

引用此论文的数据集 0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。

引用此论文的 Space 0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。

重新思考扩散Transformer中的跨层信息路由

论文页面 - 重新思考扩散Transformer中的跨层信息路由

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏 1

相似文章

通过学习的Token路由在Transformer中实现自适应计算深度

学习的中继表示用于前瞻性离散扩散模型

Delta Attention Residuals

扩散应进入语言模型的何处？几何引导的隐藏状态替换

学习跳跃块：自我发现的超度量路由用于硬件加速稀疏注意力

提交意见反馈