Delta Attention Residuals

Hugging Face Daily Papers 2026/05/13 00:00 论文

attention-residuals delta-attention layer-routing deep-learning model-architecture fine-tuning

摘要

Delta Attention Residuals 通过关注特征变化（增量）而非累积隐藏状态，改进了Transformer模型中的逐层路由，在220M到7.6B参数的规模上实现了1.7-8.2%的验证困惑度提升。

注意力残差（Attention Residuals）用学习到的对前层输出的softmax注意力替代了标准的加法残差连接，实现了选择性跨层路由。然而，标准的注意力残差仍然关注前层累积的隐藏状态，这些状态高度冗余。我们表明这种冗余会导致深层路由崩溃：注意力权重变得对比度低且接近均匀分布（最大权重 {approx}0.2），限制了模型选择前层信息性状态的能力。这提出了一个关键但尚未充分探索的设计问题：注意力残差中应该路由哪些逐层表示？为了解决这个问题，我们提出了Delta Attention Residuals，它关注增量——每个子层引入的变化（v_i = h_{i+1} - h_i）——而不是累积状态。Delta表示在结构上多样化，并产生更高对比度的注意力分布（最大权重 {approx}0.6），从而实现跨层更具选择性和有效的路由。该原理在子层和块粒度上均适用。在所有测试规模（220M--7.6B）上，Delta Attention Residuals 始终优于标准残差和注意力残差，验证困惑度提升1.7--8.2%。Delta Attention Residuals 还允许通过标准微调将预训练检查点转换为Delta Attention Residuals。代码可在 https://github.com/wdlctc/delta-attention-residuals-code 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/20 02:35

论文页面 - Delta Attention Residuals

来源：https://huggingface.co/papers/2605.18855

摘要

Delta Attention Residuals 通过关注特征变化（而非累积状态）来改进逐层路由，使得注意力分布更优，模型在不同规模下的性能也得以提升。

Attention Residuals（https://huggingface.co/papers?q=Attention%20Residuals）用学习到的 softmax 注意力替代标准加法残差连接，对前一层输出进行选择性跨层路由（https://huggingface.co/papers?q=cross-layer%20routing）。然而，标准的 Attention Residuals（https://huggingface.co/papers?q=Attention%20Residuals）仍然关注前几层的累积隐藏状态，而这些状态高度冗余。我们证明，这种冗余会导致深层中的路由坍塌（https://huggingface.co/papers?q=routing%20collapse）：注意力权重（https://huggingface.co/papers?q=attention%20weights）变得对比度低且趋于均匀（最大权重 {approx}0.2），限制了模型选择前层中信息丰富状态的能力。这引出了一个关键但尚未充分探索的设计问题：在 Attention Residuals（https://huggingface.co/papers?q=Attention%20Residuals）中应该路由何种逐层表示？为回答这个问题，我们提出 Delta Attention Residuals（https://huggingface.co/papers?q=Attention%20Residuals），它关注的是增量——即每个子层引入的变化（v_i = h_{i+1} - h_i）——而非累积状态。Delta 表示（https://huggingface.co/papers?q=Delta%20representations）在结构上具有多样性，并能产生更高对比度的注意力分布（最大权重 {approx}0.6），从而在层间实现更具选择性和更有效的路由。该原则既适用于单子层粒度，也适用于块粒度（https://huggingface.co/papers?q=block%20granularity）。在所有测试的规模（220M‒7.6B）上，Delta Attention Residuals（https://huggingface.co/papers?q=Attention%20Residuals）始终优于标准残差和 Attention Residuals（https://huggingface.co/papers?q=Attention%20Residuals），验证困惑度（https://huggingface.co/papers?q=validation%20perplexity）提升 1.7‒8.2%。Delta Attention Residuals（https://huggingface.co/papers?q=Attention%20Residuals）还能通过标准微调（https://huggingface.co/papers?q=fine-tuning）将预训练检查点（https://huggingface.co/papers?q=pretrained%20checkpoints）转换为 Delta Attention Residuals（https://huggingface.co/papers?q=Attention%20Residuals）。代码已开源：https://github.com/wdlctc/delta-attention-residuals-code。

查看 arXiv 页面（https://arxiv.org/abs/2605.18855）查看 PDF（https://arxiv.org/pdf/2605.18855）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.18855）

在您的代理中获取此论文：

hf papers read 2605.18855

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该模型。

引用此论文的数据集0

尚无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该数据集。

引用此论文的 Space0

尚无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.18855 以从本页链接到该 Space。

包含此论文的收藏集0

尚无收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）中以从本页链接到该收藏集。

Delta Attention Residuals

论文页面 - Delta Attention Residuals

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

𝐃𝐞𝐥𝐭𝐚 𝐀𝐭𝐭𝐞𝐧𝐭𝐢𝐨𝐧 𝐑𝐞𝐬𝐢𝐝𝐮𝐚𝐥𝐬 [R]

通过学习的Token路由在Transformer中实现自适应计算深度

重新思考扩散Transformer中的跨层信息路由

变分线性注意力：用于长上下文 Transformer 的稳定联想记忆

学习跳跃块：自我发现的超度量路由用于硬件加速稀疏注意力

提交意见反馈