residual-connections

#residual-connections

WAV：面向深度仅解码器Transformer的多分辨率块残差路由

arXiv cs.LG ↗ · 2026-06-08 缓存

本文提出多分辨率残差路由方法WAV v1，这是块注意力残差机制的扩展，通过引入方向性细节基来增强块表示，从而改进深度仅解码器Transformer的训练效果。

0 人收藏 0 人点赞

#residual-connections

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

本文提出扩散自适应路由（DAR），这是一种可学习的、时间步自适应的残差替换方法，旨在改善扩散Transformer中的跨层信息流动，从而显著加速训练并提升质量。

0 人收藏 0 人点赞

#residual-connections

X AI KOLs Timeline ↗ · 2026-05-09

DeepSeek 发表了一篇论文，介绍了 mHC（流形约束超连接，Manifold-Constrained Hyper-Connections），这是一种对 Transformer 架构的根本性重写，通过用数学约束的多流路径替换标准残差连接，来稳定大型模型。

0 人收藏 0 人点赞