𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]

Reddit r/MachineLearning 2026/05/25 16:08 论文

attention residuals transformer scaling fine-tuning perplexity routing

摘要

Delta Attention Residuals 是一种对残差连接的即插即用升级，它通过增量（deltas）而非累积隐藏状态进行路由，实现更清晰的跨层路由，在高达 7.6B 参数规模下将困惑度降低 1.7-8.2%，并支持以几乎为零的开销微调预训练模型（如 Qwen3-0.6B）。

我们很高兴发布 **𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬**，一种对残差连接的即插即用升级，它能够学习从哪些过去的层进行路由——而不会出现路由崩溃（该问题曾导致先前的跨层注意力在大规模下失效）。🚀 Attention Residuals 路由的是累积隐藏状态，但这些状态高度冗余，因此路由在深层几乎退化为均匀分布（最大权重约 0.2）。而 Delta Attention Residuals 路由的是 **增量**（vᵢ = hᵢ₊₁ − hᵢ）——即每个子层实际贡献的部分——并天然具备以下优势： ⚡ **1.8 倍更清晰的跨层路由** 增量在结构上更具多样性，将最大注意力权重从约 0.2 提升至约 0.6（平均值 0.62 vs 0.35），并治愈了深层的路由崩溃。 📉 **在 7.6B 规模下验证集困惑度降低 8.2%** 从 220M 到 7.6B 参数规模均有一致提升（困惑度降低 1.7-8.2%），优于标准残差和 Attention Residuals——后者在大规模下甚至低于基线（18.58 vs 17.43）。 🔌 **对预训练模型的即插即用微调** 加性的、零初始化的路由在初始化时等价于恒等映射，因此您可以通过标准微调将预训练检查点（如 Qwen3-0.6B）转换为 Delta Attention Residuals——在 8 个下游基准测试中超越原始模型（55.6 vs 55.0）。 🪶 **参数开销 ≤0.01%** Delta Block 仅增加 589K 参数（8B 规模下为 0.008%），内存开销约 3%——并且比 Attention Residuals 更快、更轻量（14.0k vs 12.5k tok/s，42.7 vs 44.0 GB）。 💻 代码：[https://github.com/wdlctc/delta-attention-residuals-code](https://github.com/wdlctc/delta-attention-residuals-code) 💻 论文：[https://arxiv.org/abs/2605.18855](https://arxiv.org/abs/2605.18855) https://preview.redd.it/bewovgw25b3h1.png?width=1359&format=png&auto=webp&s=6cee758f7a96f0adecd9a3fb8553dde3f1b92c74

查看原文

𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]

相似文章

Delta Attention Residuals

@BlinkDL_AI：Gated DeltaNet-2 几乎就是 RWKV-7 的 DPLR 循环，却对房间里的大象视而不见

ResBM：一种基于Transformer的新型架构，用于低带宽流水线并行训练，实现128倍激活压缩 [R]

Residual Paving：诊断选择性拒绝编辑中的路由瓶颈

重新思考扩散Transformer中的跨层信息路由

提交意见反馈