GiLT：利用依存图增强Transformer语言模型

arXiv cs.CL 2026/05/18 04:00 论文

dependency-graphs transformer language-model syntactic-generalization graph-infused-layers nlp shanghaitech

摘要

论文提出了GiLT（Graph-Infused Layers Transformer Language Model），它通过在token预测过程中增量构建的依存图特征来调整注意力权重，从而改善句法泛化能力，在保持竞争性困惑度的同时超越基线模型。

arXiv:2605.15562v1 公告类型：新摘要：利用语言学结构增强Transformer可以有效提升语言模型的句法泛化性能。此前的研究主要关注语言的句法树结构，特别是短语结构树。我们提出了Graph-Infused Layers Transformer语言模型（GiLT），它利用依存图来增强Transformer语言模型。与大多数先前工作不同，GiLT不在语言建模中插入额外的结构标记，而是通过从与token预测一起增量构建的依存图中提取特征来调制Transformer中的注意力权重，从而将结构信息注入语言建模。在我们的实验中，使用语义依存图的GiLT在保持竞争性困惑度的同时，相比Transformer语言模型基线实现了更好的句法泛化。此外，GiLT可以从预训练语言模型微调以改进下游任务性能。我们的代码发布在 https://github.com/cookie-pie-oops/GiLT-LM。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:32

# GiLT: 使用依存图增强Transformer语言模型

**来源：** https://arxiv.org/html/2605.15562

黄天宇，赵怡达，周楚研，涂科威  
上海科技大学信息科学与技术学院  
上海市智能视觉与成像工程技术研究中心  
\{huangty2024, zhaoyd2023, zhouchy2022, tukw\}@shanghaitech.edu.cn

###### 摘要

使用语言结构增强Transformer可以有效提高语言模型的句法泛化能力。以往这方面的研究主要关注语言的句法树结构，特别是成分句法树结构。我们提出了**图注入层Transformer语言模型**（GiLT），利用依存图来增强Transformer语言模型。与以往大多数工作不同，GiLT不在语言建模中插入额外的结构标记；而是通过从随标记预测而逐步构建的依存图中提取特征，来调节Transformer中的注意力权重，从而将结构信息注入语言建模。在我们的实验中，使用语义依存图的GiLT在保持与基线Transformer语言模型竞争力相当困惑度的同时，实现了更好的句法泛化。此外，GiLT可以从预训练语言模型微调，以获得更好的下游任务性能。我们的代码已发布在 https://github.com/cookie-pie-oops/GiLT-LM。

---

# GiLT: 使用依存图增强Transformer语言模型

黄天宇，赵怡达，周楚研，涂科威††thanks：通讯作者  
上海科技大学信息科学与技术学院  
上海市智能视觉与成像工程技术研究中心  
\{huangty2024, zhaoyd2023, zhouchy2022, tukw\}@shanghaitech.edu.cn

## 1 引言

Transformer语言模型（LMs）在语言建模和下游任务中表现出了优异性能（Vaswani 等, 2017）。值得注意的是，传统自然语言处理中被认为至关重要的语言结构，如句法和语义解析，在Transformer LM的模型设计和训练过程中是缺失的。

在过去的十年中，许多研究人员试图将语言结构整合到神经语言模型中。其中包括句法语言模型，它联合建模句法结构和表层词汇（Choe and Charniak, 2016）。这些工作包括早期的工作，如将成分句法分析与循环神经网络相结合的RNNG（Dyer 等, 2016; Kim 等, 2019; Noji and Oseki, 2021），以及最近将成分句法和依存句法整合到Transformer中的研究（Yoshida and Oseki, 2022; Qian 等, 2021; Sartran 等, 2022; Murty 等, 2023; Zhao 等, 2024）。实验表明，与标准Transformer LM相比，它们实现了更强的句法泛化，同时保持了有竞争力的语言建模性能。

然而，现有研究存在两个主要局限性。首先，它们大多基于成分句法树结构。依存树结构作为句法的另一种重要形式，受到的关注要少得多（Zhao 等, 2024）。此外，在LMs中联合建模句法树以外的语言结构的工作很少。其次，大多数现有方法需要在输入和输出序列中插入额外的建树操作，导致序列更长、计算成本更高，并使从预训练LM微调成句法LM变得困难。一个例外是Pushdown Layers（Murty 等, 2023），它利用句法树来指导注意力计算，而不改变LM的符号空间。

在本文中，我们提出了图注入层Transformer LM（GiLT），以解决上述将语言结构整合到Transformer LM中的局限性。GiLT基于**依存图**，它既包含句法依存树，也包含**语义**依存图，从而将句法LM研究扩展到句法之外。受Pushdown Layers（Murty 等, 2023）的启发，GiLT在不改变底层LM符号空间的情况下增量构建依存图，并使用从节点度数、深度和距离等图属性计算的特征来调节注意力分数。

实验结果表明，GiLT在句法泛化方面相对于基线取得了提升，同时几乎不损失语言建模的困惑度。此外，从预训练GPT2微调的GiLT在下游任务上比原始预训练GPT2表现更好，表明图注入层是标准自注意力的一个有竞争力的替代方案。

总之，我们的贡献如下：

- • 我们提出了**图注入层**，通过我们新颖的**基于图的特征磁带**利用依存图来增强LMs，而无需修改输入或输出空间。
- • 在语言建模、句法评估和文本分类微调上的全面实验表明，该方法具有有竞争力的困惑度、改进的句法泛化和语言理解能力。对特征磁带的消融研究显示了每个部分的重要性，而生成速度测试则说明了无需额外标记的优势。

## 2 背景

### 2.1 Pushdown Layers

带有Pushdown Layers的Transformer LM（Pushdown-LM，Murty 等, 2023）是一种句法LM，它增量构建成分句法树，并基于该句法树调节注意力分数。与其他句法LM不同，它不改变底层LM的符号空间。

在每个解码步骤 i 处，Pushdown-LM 预测 shift/reduce 操作来模拟与部分构建的成分句法树相对应的下推自动机的状态，并在**栈磁带** t_i 上记录所有已在部分构建的成分句法树中生成的标记的深度。

然后，Pushdown-LM 使用栈磁带 t_i 增强自注意力：

α̃_ij^l = [h_j^l + d_ij^l]^⊤ W_k^⊤ W_q h_i^l    (1)

其中 α̃_ij^l 是第 l 层中第 i 个标记分配给第 j 个标记的 softmax 前的注意力分数，h_j^l 是第 l 个注意力块中第 j 个标记的隐藏状态，d_ij^l 是记录在 t_i 中的第 j 个标记深度的嵌入，W_k 和 W_q 是自注意力中可学习的查询和键矩阵。通过这种方式，来自成分句法树的结构信息被隐式引入自注意力计算，从而影响底层LM的解码。

### 2.2 语义依存图

语义依存图是一个有向无环图，而不是一棵树。图中的依存关系（节点对应词汇）说明了语义关系（例如，施事和受事，Palmer 等, 2005）。该图通常包含一个虚拟根节点。

在本文中，我们考虑了 Oepen 等 (2015) 中的三种语义依存图，如下所述。DELPH-IN MRS 衍生的双词汇依存（DM，Flickinger 等, 2012）源自 Deep Bank（Flickinger, 2000），其中根节点表示图中作用域最高的谓词。Enju 谓词-论元结构（PAS）源自 Enju Treebank（Miyao, 2006），它通过自动标注 PTB 获得。PAS 的根节点表示句子的语义中心。布拉格语义依存（PSD）基于布拉格捷克-英语依存树库（Hajic 等, 2012），其中根节点大多对应主要动词。

## 3 图注入层

我们引入一种基于依存图的语言模型，**图注入层 Transformer LM**（GiLT），它同时生成构成句子的标记以及增量构建句子之上依存图的依存关系。我们首先对连接当前词与之前词的可能依存关系进行评分（第3.1节），然后基于评分更新依存图（第3.2节），并利用**基于图的特征磁带**（第3.3节）（它描述了图中已生成标记的特征）来调节注意力计算（第3.4节）。

### 3.1 依存评分

每当 Transformer LM 生成一个词 w_i 时，我们使用双仿射机制对所有与 w_i 相连的可能依存关系进行评分。由于一个词可能对应多个标记，我们首先定义作为双仿射模块输入的词级表示。

假设词 w_i 被分词为 m 个标记，具有输入嵌入 {x_k, …, x_{k+m-1}} 以及来自所有层 l=1,…,L 的对应隐藏状态 {h_k^l, …, h_{k+m-1}^l} ⊆ R^d。我们通过拼接三个部分来定义其词级表示 o_i ∈ R^{3d}: (i) 中间层的隐藏状态 h_{k-1}^{L/2}; (ii) 倒数第二层隐藏状态 h_{k-1}^{L-1}; (iii) 第一个标记的输入嵌入 x_k，它提供了关于该词的直接词汇信息。根据 Murty 等 (2023) 的假设，由于 h_{k-1}^{L/2} 和 h_{k-1}^{L-1} 是来自足够深层的隐藏状态，用于预测第 k 个标记，它们捕获的是关于第 k 个标记的有用信息，而不是第 (k-1) 个标记。我们不使用最后一层的隐藏状态，以便将它们保留专注于下一个标记的预测。请注意，我们不使用在 x_k 之后计算的输入嵌入和隐藏状态，这样我们可以在处理 x_k 之前预测 w_i 的所有依存关系，从而能够将来自依存图的结构信息注入到 w_i 标记的隐藏状态中。

[图片说明]  
**图 1：** 在生成句子并构建其依存图时，特征磁带如何重新计算的说明。G_2 和 G_3 中的行从上到下分别对应度数、距离和深度。对于此示例，我们设置 m_in=1 和 m_out=10。当预测到 “dogs” 时，图中添加了一个依存关系。

我们遵循双仿射解析方法（Dozat and Manning, 2018）来计算从词 w_i 到 w_j 的依存关系概率 p_{ij}。注意，对于根节点，我们使用一个可学习的向量作为其词表示：

õ_i^par = MLP_par^2(MLP_par^1(o_i) + pe_ii)   (2)  
õ_j^chd = MLP_chd^2(MLP_chd^1(o_j) + pe_ij)  
p_ij = σ(õ_i^par^⊤ W_p õ_j^chd)

其中 o_i 是如上定义的 w_i 的词表示，W_p ∈ R^{d×d} 是可学习矩阵，MLP_{par/chd}^{1/2} 表示计算父/子表示 õ_{i/j}^{par/chd} ∈ R^d 的第一/第二个 MLP，σ 表示 sigmoid 函数，pe_ij 表示位置嵌入，它是 |i-j| 的正弦编码与基于图的特征磁带 G_i（见第3.3节）嵌入之和。

### 3.2 图更新

给定关于第 i 个词 w_i 的所有可能依存关系的概率 {p_ij, p_ji, p_ii}（其中 j ∈ {0, …, i-1}），一种直接的贪婪更新图的方法是添加任何概率超过 0.5 的依存关系。然而，当我们对依存图使用束搜索时（第3.5节），由于搜索空间指数级增长，这种方法在计算上变得难以处理。为了解决这个问题，我们通过使用如下两步方法考虑一个受限的依存图子空间。对于 w_i：

(i) 我们预测依存关系数量 c_i ∈ {0,1,…,C}，其中 C 是常数上限：

s = ∑_{j=0}^i õ_i^par ⊙ W_s õ_j^chd + ∑_{j=0}^{i-1} õ_j^par ⊙ W_s õ_i^chd   (3)  
π_i := [π_i^0, π_i^1, …, π_i^C]^T = softmax(W_a^⊤ (s / √(2i-1)) + b_a)

其中 ⊙ 表示 Hadamard 乘积，W_a ∈ R^{(C+1)×d}，W_s ∈ R^{d×d}，b_a ∈ R^{C+1} 是可学习参数，π_i ∈ R^{C+1} 是 {0,1,…,C} 上的概率分布。为了归一化方差，我们将 s 除以 √(2i-1)。

(ii) c_i 的值可以通过贪婪解码（选择最可能的取值）或从 π_i 中采样获得。然后我们选择 c_i 个得分最高的依存关系并将其添加到依存图中。这个两步方法将束搜索中每一步的搜索空间从指数级减小到线性级。

### 3.3 特征提取

给定输入序列 x_{<k}，其中 x_k 是第 i 个词 w_i 的第一个标记（如第3.1节所定义）。

GiLT：利用依存图增强Transformer语言模型

相似文章

语法引导的稀疏注意力机制：实现高效可解释的Transformer

TextLDM：利用连续潜在扩散进行语言建模

当Transformer学习"不可能"语言时，它们学到了什么？

面向大型语言模型归因引导的持续学习

语言模型中Grokking的预训练类比：追踪延迟的语法泛化

提交意见反馈