语法引导的稀疏注意力机制：实现高效可解释的Transformer

arXiv cs.CL 2026/05/26 04:00 论文

attention-mechanism transformers efficiency interpretability sparsity grammar-guided nlp

摘要

本文介绍了一种针对Transformer的语法引导稀疏注意力机制，旨在通过利用语言结构来提高效率和可解释性。

arXiv:2605.24518v1 公告类型：新摘要：Transformer模型中自注意力的二次复杂度仍然是高效处理长序列和大规模语言模型部署的主要瓶颈。为此，已有大量关于稀疏注意力的研究，Deepseek Sparse Attention结合了多种创建令牌片段的方法以降低时间复杂度。本文提出了一种新颖的方法——语法引导的稀疏注意力（Grammatically-Guided Sparse Attention），它基于令牌的语法角色来约束注意力计算。通过利用词性（POS）标签，动态生成注意力掩码，强制令牌之间形成语言上连贯的连接，从而在保留必要语言依赖性的同时减少计算图。我们提出并评估了两种掩码策略：硬掩码（严格只允许预定义的语法交互）和软掩码（将这些交互的注意力偏向化）。实验采用基于DistilBERT架构的SST-2情感分类任务，结果表明语法引导的稀疏注意力在保持与全注意力可比准确率的同时，显著降低了理论计算开销。初步结果显示，硬掩码的准确率为0.8200，软掩码为0.8165，与全注意力的0.8200非常接近，这为构建更高效、更可解释且更具语言知识指导性的Transformer架构提供了一条可行路径。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:03

# 语法引导的稀疏注意力：高效且可解释的 Transformer 架构

来源：https://arxiv.org/abs/2605.24518

参考文献工具

## 参考文献与引用工具

参考文献浏览器 切换

代码、数据与媒体

## 本文关联的代码、数据与媒体

演示

## 演示

相关论文

## 推荐工具与搜索工具

关于 arXivLabs

## arXivLabs：与社区合作者的实验项目

arXivLabs 是一个框架，允许合作者直接在我们的网站上开发和共享新的 arXiv 功能。

无论是个人还是组织，与 arXivLabs 合作时，都认同并接受了我们关于开放性、社区精神、卓越品质以及用户数据隐私的价值观。arXiv 致力于这些价值观，并且只与遵守这些价值观的合作伙伴合作。

您是否有一个能为 arXiv 社区创造价值的项目创意？**了解更多关于 arXivLabs 的信息**（https://info.arxiv.org/labs/index.html）。

语法引导的稀疏注意力机制：实现高效可解释的Transformer

相似文章

使用稀疏Transformer进行生成建模

@akshay_pachaar: 1) 稀疏注意力它通过以下方式将注意力计算限制在部分令牌上：- 使用局部注意力（令牌仅关注其相邻令牌）…

GiLT：利用依存图增强Transformer语言模型

贡献权重：自注意力Transformer的几何分析

通过学习的Token路由在Transformer中实现自适应计算深度

提交意见反馈