重新思考扩散Transformer中的跨层信息路由
摘要
本文提出扩散自适应路由(DAR),这是一种可学习的、时间步自适应的残差替换方法,旨在改善扩散Transformer中的跨层信息流动,从而显著加速训练并提升质量。
查看缓存全文
缓存时间: 2026/05/25 06:36
论文页面 - 重新思考扩散Transformer中的跨层信息路由
来源:https://huggingface.co/papers/2605.20708
摘要
扩散Transformer存在传统残差连接无法解决的低效跨层信息流动问题,为此我们引入了一种可学习的、时间步自适应的路由机制,从而提升了训练效率与模型质量。
扩散Transformer(https://huggingface.co/papers?q=Diffusion%20Transformers)(DiTs)已成为现代视觉生成的事实标准骨干,其设计中的几乎每个主要维度—— token化、注意力机制、条件控制、目标函数以及潜在自编码器——都已被广泛重新审视。然而,决定信息如何在层间累积的残差流(https://huggingface.co/papers?q=residual%20stream)却直接继承自原始Transformer。本文对DiT中的跨层信息流(https://huggingface.co/papers?q=cross-layer%20information%20flow)沿深度和去噪时间步(https://huggingface.co/papers?q=denoising%20timestep)两个方向进行了系统的实证分析,并识别出传统残差加法(https://huggingface.co/papers?q=residual%20addition)的三个具体症状:单调的前向幅度膨胀、剧烈的反向梯度衰减以及显著的逐块冗余。受此诊断启发,我们提出扩散自适应路由(https://huggingface.co/papers?q=Diffusion-Adaptive%20Routing)(DAR),这是一种即插即用的残差替代方案,通过可学习、时间步自适应且非累加的方式聚合子层输出的历史信息。此外,DAR与许多现代Transformer增强方法(如REPA(https://huggingface.co/papers?q=REPA))兼容。在ImageNet 256×256上,DAR将SiT-XL/2的FID(https://huggingface.co/papers?q=FID)提升了2.11(7.56 vs. 9.67),并且在训练迭代次数减少8.75倍的情况下达到了基线收敛质量。叠加在REPA(https://huggingface.co/papers?q=REPA)之上,DAR在早期阶段实现了2倍的训练加速,这表明跨层信息路由是扩散建模中一个未被充分探索的设计维度,其与现有的表示对齐目标正交运作。除预训练外,DAR还可应用于大规模T2I模型的微调阶段,并在分布匹配蒸馏(https://huggingface.co/papers?q=Distribution%20Matching%20Distillation)过程中保留高频细节。
查看arXiv页面(https://arxiv.org/abs/2605.20708) 查看PDF(https://arxiv.org/pdf/2605.20708) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.20708)
在你的代理中获取此论文:
hf papers read 2605.20708
没有最新命令行工具?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。
引用此论文的数据集 0
没有数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。
引用此论文的 Space 0
没有 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2605.20708 即可从本页链接到它。
包含此论文的收藏 1
相似文章
通过学习的Token路由在Transformer中实现自适应计算深度
本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。
学习的中继表示用于前瞻性离散扩散模型
本文介绍了学习的中继表示(Relay),一种使掩码扩散模型能够在去噪步骤之间传播潜在信息的方法,克服了硬重置问题并改善了性能-延迟权衡。该方法在编码任务上优于标准的监督微调,同时将推理延迟降低高达32%。
Delta Attention Residuals
Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。
扩散应进入语言模型的何处?几何引导的隐藏状态替换
本文提出DiHAL,一种扩散-变换器混合模型,利用基于几何的代理选择预训练语言模型中的某个层,通过扩散桥进行隐藏状态替换,通过避免直接的词元恢复来改进连续扩散语言建模。
学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力
本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。