ModTGCN:面向文本分类的模块化感知图神经网络
摘要
ModTGCN是一种模块化感知的图神经网络,通过联合优化交叉熵和基于模块化的辅助目标,利用文档图中的全局社区结构来改进文本分类,在五个基准测试上实现了持续的增益。
arXiv:2606.23694v1 公告类型:新
摘要:基于图的文本分类模型通常依赖局部邻域聚合,忽略了全局社区结构,尽管语义文档图展现出强烈的类别一致聚类。忽略这一点会模糊类别边界并导致过度平滑。我们提出了ModTGCN,一种用于文本分类的模块化感知图神经网络,它联合优化交叉熵和基于模块化的辅助目标,以促进类别一致的文档社区,同时保持判别性表示。模块化项是在由Transformer嵌入(预训练或微调)派生的文档-文档相似度图上计算的。为了提高可扩展性,我们将原始的异构TextGCN图解耦为单独的文档-词和词-词组件,实现了2倍至10倍的训练加速。我们进一步研究了图构建策略、标签感知的边重新加权以及模块化优化的监督选择。在五个基准测试上的实验显示了持续的增益,在复杂、低同质性的数据集(如Ohsumed和20NG)上取得了更大的改进。
查看缓存全文
缓存时间: 2026/06/24 07:43
# ModTGCN:用于文本分类的模块感知图神经网络
来源:https://arxiv.org/html/2606.23694
11作者单位:印度比拉理工学院
11电子邮箱:f20201822p@alumni\.bits\-pilani\.ac\.in, \{p20200470,vinti\.agarwal\}@pilani\.bits\-pilani\.ac\.in
22作者单位:独立研究员
22电子邮箱:hariom85@gmail\.com
Aditya Sharma Vinti Agarwal Hari Om Aggrawal
通讯作者:vinti\.agarwal@pilani\.bits\-pilani\.ac\.in
###### 摘要
基于图的文本分类模型通常依赖局部邻域聚合,而忽略了全局社区结构,尽管语义文档图表现出强烈的类别一致性聚类。忽略这一点会模糊类别边界并导致过平滑。我们提出 ModTGCN,一种模块感知的图神经网络用于文本分类,它联合优化交叉熵和基于模块度的辅助目标,以促进类别一致的文档社区,同时保留判别性表示。模块度项是在从变换器嵌入(预训练或微调)派生的文档-文档相似度图上计算的。为提高可扩展性,我们将原始异构 TextGCN 图解耦为独立的文档-词和词-词组件,实现 2×–10× 更快的训练。我们进一步研究了图构建策略、标签感知的边重新加权以及模块度优化的监督选择。在五个基准数据集上的实验显示一致的性能提升,在 Ohsumed 和 20NG 等复杂、低同质性数据集上改进更大。
## 1 引言
文本分类仍然是自然语言处理中的一项基本任务。基于变换器的模型如 BERT 和大语言模型 (LLMs) 的最新进展已实现强大的零样本和少样本性能[16 (https://arxiv.org/html/2606.23694#bib.bib40),23 (https://arxiv.org/html/2606.23694#bib.bib39)]。然而,这些模型通常需要昂贵的全微调、参数高效适配(例如适配器、LoRA)或提示校准才能在监督设置下表现良好。另一条工作线将文本分类表述为在图结构上的学习,其中词和文档表示为节点,边编码词汇或语义关系。图神经网络方法如 TextGCN[24 (https://arxiv.org/html/2606.23694#bib.bib16)]、TensorGCN[9 (https://arxiv.org/html/2606.23694#bib.bib17)]、BertGCN[8 (https://arxiv.org/html/2606.23694#bib.bib20)] 和 VGCNBert[10 (https://arxiv.org/html/2606.23694#bib.bib19)] 显式建模词和文档之间的交互,通过关系传播实现半监督学习。尽管有效,但大多数基于图的文本分类器主要依赖局部邻域聚合。然而,语义文档图通常表现出清晰的介观结构:共享相同标签的文档倾向于形成同配聚类,具有密集的类内连接和稀疏的类间连接。当忽略这种全局社区结构时,通常会出现两个问题:(i) 由高频词或噪声相似性引起的枢纽驱动捷径模糊了类别边界,以及 (ii) 更深 GNN 中的过平滑在弱社区分离上同质化表示,降低了区分能力。因此,在训练中纳入全局结构信息可能提高鲁棒性和类别分离度[2 (https://arxiv.org/html/2606.23694#bib.bib31)]。
模块度优化——最初为社区检测开发[14 (https://arxiv.org/html/2606.23694#bib.bib33),15 (https://arxiv.org/html/2606.23694#bib.bib34)]——为建模这种全局结构提供了一种有原则的机制。受此观察的启发,我们引入了 ModTGCN,一种用于文本分类的模块感知 GNN。我们的方法在从变换器嵌入派生的文档-文档相似度图上计算基于模块度的辅助目标,以增强标准交叉熵监督。核心假设是,显式优化模块结构会将学习到的表示与类级图社区对齐,从而提供超越局部消息传递的全局正则化。尽管模块感知 GNN 在其他领域已显示出前景[12 (https://arxiv.org/html/2606.23694#bib.bib3),22 (https://arxiv.org/html/2606.23694#bib.bib35)],但其在半监督文档分类中的应用仍未被充分探索。
半监督图学习的一个关键挑战是在尊重全局结构的同时,从有限的标记节点传播监督。我们通过在从预训练或微调 SBERT 嵌入[20 (https://arxiv.org/html/2606.23694#bib.bib11)]构建的文档-文档图上计算模块度来解决此问题,对标记节点使用真实标签,对未标记节点使用 TextGCN[24 (https://arxiv.org/html/2606.23694#bib.bib16)] 预测。这种混合监督方案在无需昂贵 LLM 微调的情况下,实现了标签高效且可解释的改进,同时保持编码器无关性,并兼容未来的嵌入进展。
为进一步提高可扩展性,我们将原始的单个异构 TextGCN 图解耦为独立的文档-词(TF–IDF)和词-词(PMI)组件。这保留了原始传播机制,同时在大数据集上大幅减少了计算开销。详细复杂度分析见第 5.3 节 (https://arxiv.org/html/2606.23694#S5.SS3)。
为此,我们总结贡献如下:
- • **模块感知 GNN 与混合监督**。我们引入联合目标 \(L=\mathrm{CE}+\lambda(-Q)\),该目标在从语言模型嵌入构建的文档-文档图上促进类别一致的社区,对未标记节点使用伪标签。
- • **TextGCN 架构解耦**。我们将异构图重新表述为独立的文档-词和词-词组件,在不改变有效决策函数的情况下提高了可扩展性。
- • **文档-文档邻接策略**。我们比较了 TF–IDF、余弦和高斯相似度图,分析了准确性-可扩展性的权衡。
- • **实证验证**。在五个基准数据集上的实验表明,联合优化分类和模块度能持续提升性能,尤其是在结构复杂的数据集上。
## 2 相关工作
现有的基于图的文本分类方法可分为**纯 GNN** 和**混合 GNN–语言模型** 方法。纯 GNN 方法如 TextGCN[24 (https://arxiv.org/html/2606.23694#bib.bib16)] 使用 TF–IDF 和 PMI 边构建异构文档-词图,并应用两层 GCN 进行半监督文本分类。后续变体通过引入多视图或基于张量的词图[9 (https://arxiv.org/html/2606.23694#bib.bib17)]、异构注意力机制[18 (https://arxiv.org/html/2606.23694#bib.bib29)] 或额外的词汇节点(例如字符和 n-gram)来丰富结构信息[7 (https://arxiv.org/html/2606.23694#bib.bib18)],扩展了这一设计。尽管有效,但这些方法依赖于大型细粒度图,导致计算成本高且可扩展性受限。混合 GNN–LM 模型将预训练变换器中的上下文嵌入整合到图学习中。方法如 BERTGCN[8 (https://arxiv.org/html/2606.23694#bib.bib20)] 和 VGCN-BERT[10 (https://arxiv.org/html/2606.23694#bib.bib19)] 联合训练或融合语言模型与图编码器,以结合局部上下文信号和全局关系结构。尽管它们提高了性能,但联合训练 LM 与 GNN 会带来大量计算开销。
### GNN 中的模块度
模块度[13 (https://arxiv.org/html/2606.23694#bib.bib22)] 通过将观察到的社区内边与保持度的零模型进行比较来衡量社区质量。一个已知的局限性是**分辨率极限**[1 (https://arxiv.org/html/2606.23694#bib.bib23)],这导致小而连贯的社区被合并到更大的社区中。为缓解这一问题,分辨率调整变体引入了可调参数[19 (https://arxiv.org/html/2606.23694#bib.bib24)](其中 \(\gamma>1\) 揭示更小的组),或采用**模块度密度**[3 (https://arxiv.org/html/2606.23694#bib.bib25)] 及其推广 \(Q_{g}\)[4 (https://arxiv.org/html/2606.23694#bib.bib26)],后者通过内部链接密度对社区进行加权,以更好地保留紧密聚类。几项工作将模块度整合到神经目标中:模块度正则化已被添加到 GAE/VGAE 中用于无监督社区检测[21 (https://arxiv.org/html/2606.23694#bib.bib27)]、VGAER[17 (https://arxiv.org/html/2606.23694#bib.bib28)];Murata & Afzal[12 (https://arxiv.org/html/2606.23694#bib.bib3)] 在 GNN 训练期间直接优化模块度,生成与社区结构对齐的嵌入以用于聚类任务。这些研究表明,模块感知学习可以揭示潜在结构并提高下游质量。*与我们的设置的联系:*先前的模块感知方法主要针对无监督聚类或社区检测。相比之下,我们将模块度整合到半监督文本分类中,通过文档-文档相似度图上的混合监督使图社区与类别标签对齐。这提供了全局结构先验,补充了局部消息传递,同时通过我们的解耦图构建保持了计算效率。
## 3 提出方法
### 3.1 问题形式化
给定一个文档语料库 \(\mathcal{D}=\{d_{1},d_{2},\ldots,d_{n}\}\) 和相应的标签集 \(\mathcal{Y}=\{y_{1},y_{2},\ldots,y_{n}\}\),覆盖 \(\mathcal{C}\) 个类别,主要目标是执行文档分类。在训练期间,文档集 \(\mathcal{D}\) 被划分为标记集 \(U\) 和未标记集 \(V\),目标是学习一个映射函数 \(f:\mathcal{D}\rightarrow\mathcal{Y}\),该函数能利用基于图的关系结构准确预测每个未标记文档的类别 \(y_{i}\)。
### 3.2 ModTGCN:图构建
ModTGCN 在三个图上运行:(1) 通过 TF–IDF 权重构建的**文档-词图** \(\mathcal{G}_{d}=(\mathcal{V}_{d},\mathcal{E}_{d})\),(2) 基于 PMI 词共现构建的**词-词图** \(\mathcal{G}_{w}=(\mathcal{V}_{w},\mathcal{E}_{w})\),以及 (3) 用于模块度优化的**文档-文档相似度图** \(\mathcal{G}_{doc}=(\mathcal{V}_{doc},\mathcal{E}_{doc})\),其中边权重表示节点相似度,使用高斯(RBF)核 \(S_{ij}=\exp\left(-\frac{\|e_{i}-e_{j}\|^{2}}{2\sigma^{2}}\right)\)[25 (https://arxiv.org/html/2606.23694#bib.bib45)] 计算,\(e_{i}\) 是来自变换器的文档 \(i\in\mathcal{V}_{doc}\) 的嵌入,\(\sigma\) 控制核空间中的邻域敏感性。前两个图保留了 TextGCN 的传播结构,而第三个引入了全局结构监督。
### 3.3 模块度作为目标函数
标准 GCN[6 (https://arxiv.org/html/2606.23694#bib.bib42)] 聚合 L 跳局部邻域,而模块度通过零模型项引入了所有节点对之间的全局度感知耦合。然而,语义文档图通常表现出与类别标签对齐的介观社区结构。为显式鼓励这种结构,我们引入模块度作为辅助目标。模块度 \(Q\) 衡量观察到的社区内连接相对于保持度的零模型的偏离。对于标签(或社区)矩阵 \(P\in\mathbb{R}^{n\times C}\),模块度为:
\[
Q(P) = \frac{1}{2m}\,\mathrm{Tr}\!\big(P^{\top}BP\big),\qquad B = A\;-\;\gamma\,\frac{kk^{\top}}{2m},
\tag{1}
\]
其中 \(A\) 是邻接矩阵,\(k\) 是度向量,\(m\) 是总边权重,\(\gamma\) 是分辨率参数。模块度矩阵 \(B\) 量化了图偏离零模型的程度。在此基础上,模块度损失为:
\[
\mathcal{L}_{mod}(P) = -\,Q(P),
\tag{2}
\]
当预测社区(由 \(P\) 诱导)的社区内边计数超过零模型期望时,该损失被最小化。重要的是,即使不相邻的节点(\(A_{ij}=0\))也通过零模型项 \(\gamma\,\frac{kk^{\top}}{2m}\) 贡献,这赋予了模块度全局耦合效应。
##### 混合监督下的模块度梯度。
我们将标签矩阵 \(P\) 划分为 \((P_{U},P_{V})\),并将模块度矩阵 \(B\) 按标记节点 \(U\) 和未标记节点 \(V\) 划分为块 \(\{B_{UU},B_{UV},B_{VU},B_{VV}\}\)。模块度 \(Q\) 在 \(\mathcal{G}_{doc}\) 上计算,对 \(P_{U}\) 使用真实标签,对 \(P_{V}\) 使用 TextGCN 伪标签。我们还评估了一种变体,该变体对 \(P_{U}\) 和 \(P_{V}\) 均使用软标签;见第 6 节 (https://arxiv.org/html/2606.23694#S6) 的消融研究。相对于 \(P_{V}\) 的梯度为:
\[
\nabla_{P_{V}}\mathcal{L} = -\,\frac{1}{m}\Big(B_{VV}P_{V}\;+\;B_{VU}P_{U}\Big).
\tag{3}
\]
项 \(B_{VU}P_{U}\) 充当由标记节点诱导的度校正监督场,而 \(B_{VV}P_{V}\) 将未标记节点相互耦合。展开节点 \(i\in V\) 和类别 \(c\) 的监督场:
\[
\big[B_{VU}P_{U}\big]_{i,c} = \sum_{j\in U}A_{ij}\,\mathbf{1}[g_{j}=c]\;-\;\frac{k_{i}}{2m}\sum_{j\in U}k_{j}\,\mathbf{1}[g_{j}=c].
\tag{4}
\]
因此,节点被鼓励朝向观察到的连接超过零模型期望的类别,这减轻了枢纽偏差并阻止退化的单聚类分配。
##### 模块度 \(Q\) 的全局耦合(玩具示例)。
图 1 (https://arxiv.org/html/2606.23694#S3.F1) 展示了三个案例,突出了模块度的全局性。在 S1(基线)中,节点 2 连接至中等度数的蓝色节点。由于这些观察到的边超过了度校正的零模型期望,监督场偏向蓝色类别并惩罚红色。在 S2(全局变化)中,添加 \((1,5)\) 和 \((3,4)\) 增加了蓝色节点的度数和 \(m\),而不改变节点 2 的邻域,提高了零模型基线并削弱了蓝色场,尽管其直接连接保持不变。这证明了模块度依赖于*全局*度分布,而非局部邻域。在 S2+ 中,添加 \((2,5)\) 改变了 \(k_{2}\) 和 \(m\),并激活了公式 (3) 中的 \(B_{VV}P_{V}\),因此节点 2 不仅受标记邻居影响,还受未标记邻居软标签的影响(例如,偏向红色的节点 5 降低了其对蓝色的偏好),说明了未标记-未标记耦合。

##### 观察。
该机制提供了 (i) *全局监督传播*,通过度校正场 \(B_{VU}P_{U}\),使少量标签能影响远处节点,以及 (ii) *未标记-未标记一致性*,通过 \(B_{VV}P_{V}\)。相似文章
TERGAD: 面向图异常检测的结构感知文本增强表示
TERGAD是一种新颖的数据增强框架,利用大语言模型将节点级别的拓扑属性转化为语义描述,然后通过门控双分支自编码器将这些语义描述与原始节点属性融合,用于图异常检测,在六个数据集上取得了最先进的结果。
多模态属性图的上下文感知模态-拓扑协同对齐
提出CoMAG,一个用于多模态属性图的统一骨干网络,它学习任务自适应可靠上下文并执行模态保持对齐,在图级预测、模态匹配和图条件生成上达到最先进结果。
图自监督学习对现实世界噪声的鲁棒性:基于文本驱动生物医学图的案例研究
本文介绍了 NATD-GSSL 框架,用于评估图自监督学习在含噪声的文本驱动生物医学图上的鲁棒性。研究表明,尽管存在现实世界的噪声,某些 GNN 架构和 pretext tasks(辅助任务)仍能保持性能,为在不完美数据集上进行无监督学习提供了实用指导。
G^2C-MT:基于图引导的文档级机器翻译上下文选择
提出了G²C-MT,一种基于图引导的文档级机器翻译上下文选择框架,通过轻量级话语图和深度偏置随机游走来建模结构化话语依赖关系,在多个大语言模型上超越基线。
超越金牌教师:通过LLM-GNN协同教学增强图学习
本文提出LLM-GNN协同教学(LLM-GNN Co-Teaching),一种面向文本属性图的小样本图学习的双向框架。LLM和GNN交换高置信度的伪标签,并利用基于轮次的偏好优化(RPL-PO)相互改进,在基准测试上优于先前方法。