Delta Attention Residuals
摘要
Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。
查看缓存全文
缓存时间: 2026/05/20 02:35
论文页面 - Delta Attention Residuals
来源:https://huggingface.co/papers/2605.18855
摘要
Delta Attention Residuals 通过关注特征变化(而非累积状态)来改进逐层路由,使得注意力分布更优,模型在不同规模下的性能也得以提升。
Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)用学习到的 softmax 注意力替代标准加法残差连接,对前一层输出进行选择性跨层路由(https://huggingface.co/papers?q=cross-layer%20routing)。然而,标准的 Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)仍然关注前几层的累积隐藏状态,而这些状态高度冗余。我们证明,这种冗余会导致深层中的路由坍塌(https://huggingface.co/papers?q=routing%20collapse):注意力权重(https://huggingface.co/papers?q=attention%20weights)变得对比度低且趋于均匀(最大权重 {approx}0.2),限制了模型选择前层中信息丰富状态的能力。这引出了一个关键但尚未充分探索的设计问题:在 Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)中应该路由何种逐层表示?为回答这个问题,我们提出 Delta Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals),它关注的是增量——即每个子层引入的变化(v_i = h_{i+1} - h_i)——而非累积状态。Delta 表示(https://huggingface.co/papers?q=Delta%20representations)在结构上具有多样性,并能产生更高对比度的注意力分布(最大权重 {approx}0.6),从而在层间实现更具选择性和更有效的路由。该原则既适用于单子层粒度,也适用于块粒度(https://huggingface.co/papers?q=block%20granularity)。在所有测试的规模(220M‒7.6B)上,Delta Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)始终优于标准残差和 Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals),验证困惑度(https://huggingface.co/papers?q=validation%20perplexity)提升 1.7‒8.2%。Delta Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)还能通过标准微调(https://huggingface.co/papers?q=fine-tuning)将预训练检查点(https://huggingface.co/papers?q=pretrained%20checkpoints)转换为 Delta Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)。代码已开源:https://github.com/wdlctc/delta-attention-residuals-code。
查看 arXiv 页面(https://arxiv.org/abs/2605.18855)查看 PDF(https://arxiv.org/pdf/2605.18855)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18855)
在您的代理中获取此论文:
hf papers read 2605.18855
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该模型。
引用此论文的数据集0
尚无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该数据集。
引用此论文的 Space0
尚无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该 Space。
包含此论文的收藏集0
尚无收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)中以从本页链接到该收藏集。
相似文章
𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]
Delta Attention Residuals 是一种对残差连接的即插即用升级,它通过增量(deltas)而非累积隐藏状态进行路由,实现更清晰的跨层路由,在高达 7.6B 参数规模下将困惑度降低 1.7-8.2%,并支持以几乎为零的开销微调预训练模型(如 Qwen3-0.6B)。
通过学习的Token路由在Transformer中实现自适应计算深度
本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。
重新思考扩散Transformer中的跨层信息路由
本文提出扩散自适应路由(DAR),这是一种可学习的、时间步自适应的残差替换方法,旨在改善扩散Transformer中的跨层信息流动,从而显著加速训练并提升质量。
变分线性注意力:用于长上下文 Transformer 的稳定联想记忆
本文介绍了变分线性注意力(VLA),这是一种用于稳定长上下文 Transformer 中线性注意力机制记忆状态的方法。VLA 将记忆更新重构为在线正则化最小二乘问题,证明了状态范数的有界性,并展示了相较于标准线性注意力和 DeltaNet 显著的速度提升以及更高的检索准确性。
学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力
本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。