Delta Attention Residuals

Hugging Face Daily Papers 论文

摘要

Delta Attention Residuals 通过关注特征变化(增量)而非累积隐藏状态,改进了Transformer模型中的逐层路由,在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。

注意力残差(Attention Residuals)用学习到的对前层输出的softmax注意力替代了标准的加法残差连接,实现了选择性跨层路由。然而,标准的注意力残差仍然关注前层累积的隐藏状态,这些状态高度冗余。我们表明这种冗余会导致深层路由崩溃:注意力权重变得对比度低且接近均匀分布(最大权重 {approx}0.2),限制了模型选择前层信息性状态的能力。这提出了一个关键但尚未充分探索的设计问题:注意力残差中应该路由哪些逐层表示?为了解决这个问题,我们提出了Delta Attention Residuals,它关注增量——每个子层引入的变化(v_i = h_{i+1} - h_i)——而不是累积状态。Delta表示在结构上多样化,并产生更高对比度的注意力分布(最大权重 {approx}0.6),从而实现跨层更具选择性和有效的路由。该原理在子层和块粒度上均适用。在所有测试规模(220M--7.6B)上,Delta Attention Residuals 始终优于标准残差和注意力残差,验证困惑度提升1.7--8.2%。Delta Attention Residuals 还允许通过标准微调将预训练检查点转换为Delta Attention Residuals。代码可在 https://github.com/wdlctc/delta-attention-residuals-code 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/20 02:35

论文页面 - Delta Attention Residuals

来源:https://huggingface.co/papers/2605.18855

摘要

Delta Attention Residuals 通过关注特征变化(而非累积状态)来改进逐层路由,使得注意力分布更优,模型在不同规模下的性能也得以提升。

Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)用学习到的 softmax 注意力替代标准加法残差连接,对前一层输出进行选择性跨层路由(https://huggingface.co/papers?q=cross-layer%20routing)。然而,标准的 Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)仍然关注前几层的累积隐藏状态,而这些状态高度冗余。我们证明,这种冗余会导致深层中的路由坍塌(https://huggingface.co/papers?q=routing%20collapse):注意力权重(https://huggingface.co/papers?q=attention%20weights)变得对比度低且趋于均匀(最大权重 {approx}0.2),限制了模型选择前层中信息丰富状态的能力。这引出了一个关键但尚未充分探索的设计问题:在 Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)中应该路由何种逐层表示?为回答这个问题,我们提出 Delta Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals),它关注的是增量——即每个子层引入的变化(v_i = h_{i+1} - h_i)——而非累积状态。Delta 表示(https://huggingface.co/papers?q=Delta%20representations)在结构上具有多样性,并能产生更高对比度的注意力分布(最大权重 {approx}0.6),从而在层间实现更具选择性和更有效的路由。该原则既适用于单子层粒度,也适用于块粒度(https://huggingface.co/papers?q=block%20granularity)。在所有测试的规模(220M‒7.6B)上,Delta Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)始终优于标准残差和 Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals),验证困惑度(https://huggingface.co/papers?q=validation%20perplexity)提升 1.7‒8.2%。Delta Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)还能通过标准微调(https://huggingface.co/papers?q=fine-tuning)将预训练检查点(https://huggingface.co/papers?q=pretrained%20checkpoints)转换为 Delta Attention Residuals(https://huggingface.co/papers?q=Attention%20Residuals)。代码已开源:https://github.com/wdlctc/delta-attention-residuals-code。

查看 arXiv 页面(https://arxiv.org/abs/2605.18855)查看 PDF(https://arxiv.org/pdf/2605.18855)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.18855)

在您的代理中获取此论文:

hf papers read 2605.18855

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该模型。

引用此论文的数据集0

尚无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该数据集。

引用此论文的 Space0

尚无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该 Space。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加到收藏集(https://huggingface.co/new-collection)中以从本页链接到该收藏集。

相似文章

重新思考扩散Transformer中的跨层信息路由

Hugging Face Daily Papers

本文提出扩散自适应路由(DAR),这是一种可学习的、时间步自适应的残差替换方法,旨在改善扩散Transformer中的跨层信息流动,从而显著加速训练并提升质量。

变分线性注意力:用于长上下文 Transformer 的稳定联想记忆

arXiv cs.LG

本文介绍了变分线性注意力(VLA),这是一种用于稳定长上下文 Transformer 中线性注意力机制记忆状态的方法。VLA 将记忆更新重构为在线正则化最小二乘问题,证明了状态范数的有界性,并展示了相较于标准线性注意力和 DeltaNet 显著的速度提升以及更高的检索准确性。

学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力

Reddit r/artificial

本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。