标签
本文提出多分辨率残差路由方法WAV v1,这是块注意力残差机制的扩展,通过引入方向性细节基来增强块表示,从而改进深度仅解码器Transformer的训练效果。
本文提出扩散自适应路由(DAR),这是一种可学习的、时间步自适应的残差替换方法,旨在改善扩散Transformer中的跨层信息流动,从而显著加速训练并提升质量。
DeepSeek 发表了一篇论文,介绍了 mHC(流形约束超连接,Manifold-Constrained Hyper-Connections),这是一种对 Transformer 架构的根本性重写,通过用数学约束的多流路径替换标准残差连接,来稳定大型模型。