𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]
摘要
Delta Attention Residuals 是一种对残差连接的即插即用升级,它通过增量(deltas)而非累积隐藏状态进行路由,实现更清晰的跨层路由,在高达 7.6B 参数规模下将困惑度降低 1.7-8.2%,并支持以几乎为零的开销微调预训练模型(如 Qwen3-0.6B)。
我们很高兴发布 **𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬**,一种对残差连接的即插即用升级,它能够学习从哪些过去的层进行路由——而不会出现路由崩溃(该问题曾导致先前的跨层注意力在大规模下失效)。🚀 Attention Residuals 路由的是累积隐藏状态,但这些状态高度冗余,因此路由在深层几乎退化为均匀分布(最大权重约 0.2)。而 Delta Attention Residuals 路由的是 **增量**(vᵢ = hᵢ₊₁ − hᵢ)——即每个子层实际贡献的部分——并天然具备以下优势:
⚡ **1.8 倍更清晰的跨层路由**
增量在结构上更具多样性,将最大注意力权重从约 0.2 提升至约 0.6(平均值 0.62 vs 0.35),并治愈了深层的路由崩溃。
📉 **在 7.6B 规模下验证集困惑度降低 8.2%**
从 220M 到 7.6B 参数规模均有一致提升(困惑度降低 1.7-8.2%),优于标准残差和 Attention Residuals——后者在大规模下甚至低于基线(18.58 vs 17.43)。
🔌 **对预训练模型的即插即用微调**
加性的、零初始化的路由在初始化时等价于恒等映射,因此您可以通过标准微调将预训练检查点(如 Qwen3-0.6B)转换为 Delta Attention Residuals——在 8 个下游基准测试中超越原始模型(55.6 vs 55.0)。
🪶 **参数开销 ≤0.01%**
Delta Block 仅增加 589K 参数(8B 规模下为 0.008%),内存开销约 3%——并且比 Attention Residuals 更快、更轻量(14.0k vs 12.5k tok/s,42.7 vs 44.0 GB)。
💻 代码:[https://github.com/wdlctc/delta-attention-residuals-code](https://github.com/wdlctc/delta-attention-residuals-code)
💻 论文:[https://arxiv.org/abs/2605.18855](https://arxiv.org/abs/2605.18855)
https://preview.redd.it/bewovgw25b3h1.png?width=1359&format=png&auto=webp&s=6cee758f7a96f0adecd9a3fb8553dde3f1b92c74
相似文章
Delta Attention Residuals
Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。
@BlinkDL_AI:Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环,却对房间里的大象视而不见
Ali Hatamizadeh 宣布了 Gated DeltaNet-2,一种新的线性注意力模型,在 1.3B 规模上优于 KDA 和 Mamba-3;@BlinkDL_AI 指出其循环与 RWKV-7 的 DPLR 几乎相同。
ResBM:一种基于Transformer的新型架构,用于低带宽流水线并行训练,实现128倍激活压缩 [R]
ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。
Residual Paving:诊断选择性拒绝编辑中的路由瓶颈
介绍Residual Paving,一种针对冻结指令调优Transformer的路由残差编辑方法,将路由选择性(是否干预)与残差编辑能力(应用何种编辑)分离,在Gemma-3-4B-IT上显著降低了编辑拒绝率,同时保留了良性和有害行为。
重新思考扩散Transformer中的跨层信息路由
本文提出扩散自适应路由(DAR),这是一种可学习的、时间步自适应的残差替换方法,旨在改善扩散Transformer中的跨层信息流动,从而显著加速训练并提升质量。