语法引导的稀疏注意力机制:实现高效可解释的Transformer
摘要
本文介绍了一种针对Transformer的语法引导稀疏注意力机制,旨在通过利用语言结构来提高效率和可解释性。
arXiv:2605.24518v1 公告类型:新
摘要:Transformer模型中自注意力的二次复杂度仍然是高效处理长序列和大规模语言模型部署的主要瓶颈。为此,已有大量关于稀疏注意力的研究,Deepseek Sparse Attention结合了多种创建令牌片段的方法以降低时间复杂度。本文提出了一种新颖的方法——语法引导的稀疏注意力(Grammatically-Guided Sparse Attention),它基于令牌的语法角色来约束注意力计算。通过利用词性(POS)标签,动态生成注意力掩码,强制令牌之间形成语言上连贯的连接,从而在保留必要语言依赖性的同时减少计算图。我们提出并评估了两种掩码策略:硬掩码(严格只允许预定义的语法交互)和软掩码(将这些交互的注意力偏向化)。实验采用基于DistilBERT架构的SST-2情感分类任务,结果表明语法引导的稀疏注意力在保持与全注意力可比准确率的同时,显著降低了理论计算开销。初步结果显示,硬掩码的准确率为0.8200,软掩码为0.8165,与全注意力的0.8200非常接近,这为构建更高效、更可解释且更具语言知识指导性的Transformer架构提供了一条可行路径。
查看缓存全文
缓存时间: 2026/05/26 09:03
# 语法引导的稀疏注意力:高效且可解释的 Transformer 架构 来源:https://arxiv.org/abs/2605.24518 参考文献工具 ## 参考文献与引用工具 参考文献浏览器 切换 代码、数据与媒体 ## 本文关联的代码、数据与媒体 演示 ## 演示 相关论文 ## 推荐工具与搜索工具 关于 arXivLabs ## arXivLabs:与社区合作者的实验项目 arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。 无论是个人还是组织,与 arXivLabs 合作时,都认同并接受了我们关于开放性、社区精神、卓越品质以及用户数据隐私的价值观。arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。 您是否有一个能为 arXiv 社区创造价值的项目创意?**了解更多关于 arXivLabs 的信息**(https://info.arxiv.org/labs/index.html)。
相似文章
使用稀疏Transformer进行生成建模
OpenAI推出了稀疏Transformer,一种深度神经网络,将注意力机制的复杂度从O(N²)优化到O(N√N),使得能够对长度超过以前30倍的序列进行建模,适用于文本、图像和音频领域。该模型采用稀疏注意力模式和基于检查点的内存优化技术,可以训练深达128层的网络,在多个领域实现了最先进的性能。
@akshay_pachaar: 1) 稀疏注意力 它通过以下方式将注意力计算限制在部分令牌上:- 使用局部注意力(令牌仅关注其相邻令牌)…
解释了Transformer中的稀疏注意力,通过仅关注部分令牌(使用局部或学习到的注意力模式)来降低计算复杂度。
GiLT:利用依存图增强Transformer语言模型
论文提出了GiLT(Graph-Infused Layers Transformer Language Model),它通过在token预测过程中增量构建的依存图特征来调整注意力权重,从而改善句法泛化能力,在保持竞争性困惑度的同时超越基线模型。
贡献权重:自注意力Transformer的几何分析
介绍贡献权重(Contribution Weights),这是一种基于投影的度量,它考虑了注意力权重、值向量的幅度和方向对齐,从而更准确地衡量Transformer大语言模型中的token重要性,揭示了注意力阱(attention sinks)的主动功能角色。
通过学习的Token路由在Transformer中实现自适应计算深度
本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。