基于图注意力网络的门控多图融合用于阿尔茨海默病检测

arXiv cs.CL 2026/07/01 04:00 论文

摘要

本文提出了一种多视图门控图注意力网络，用于从自发言语中检测阿尔茨海默病，利用语义图、依存图和共现图，并采用自适应门控融合机制。该模型在ADReSSo数据集上达到90.00%的准确率，源代码已公开。

arXiv:2606.31186v1 公告类型：新摘要：自发言语是阿尔茨海默病（Alzheimer's Disease, AD）的一种重要的非侵入性生物标志物，然而许多系统忽视了病理语言中的非线性结构破坏和临床异质性。我们提出了一种多视图门控图注意力网络，通过自动语音识别（Automatic Speech Recognition, ASR）转录音频，构建语义图、依存图和共现图，并通过“内容-结构-流”框架表征言语。值得注意的是，共现图利用来自规范语料库的点互信息（Pointwise Mutual Information, PMI）来量化叙事逻辑和语言偏差。为了应对症状多样性，自适应门控融合机制动态整合这些视图。在ADReSSo数据集上的评估结果表明，我们的模型达到了90.00%的准确率。消融实验证实，基于PMI的图和对异质性敏感的门控机制对于在不同临床人群中实现稳健分类至关重要。我们的源代码已公开，可在 https://github.com/opeacc/AD 获取。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:33

# 基于门控多图融合图注意力网络的阿尔茨海默病检测
来源：https://arxiv.org/html/2606.31186
李伟文李林王\\authorbreak王当

肖斌凯宇钦晓宝龙标剑武1天津大学未来技术学院，天津，中国 2中国科学院深圳先进技术研究院，深圳，中国 3福州大学计算机与数据科学学院，福州，中国 4慧眼科技（天津）有限公司，天津，中国[email protected], [email protected] (https://arxiv.org/html/2606.31186v1/mailto:[email protected],%[email protected])

###### 摘要

自发性言语是阿尔茨海默病（AD）的重要非侵入性生物标志物，然而许多系统忽视了病理性语言中的非线性结构破坏和临床异质性。我们提出了一种多视图门控图注意力网络，该网络通过自动语音识别（ASR）转录音频，构建语义图、依存图和共现图，通过“内容–结构–流程”框架对言语进行表征。值得注意的是，共现图利用来自规范语料库的点式互信息（PMI）来量化叙事逻辑和语言偏差。为应对症状多样性，一种自适应门控融合机制动态整合了这些视图。在ADReSSo数据集上的评估显示，我们的模型达到了90.00%的准确率。消融实验结果表明，基于PMI的图和异质性感知门控对于跨不同临床人群的稳健分类至关重要。我们的源代码公开在 https://github.com/opeacc/AD。

###### 关键词:

阿尔茨海默病检测，图神经网络，自发性言语分析，门控融合机制

## 1 引言

痴呆症，尤其是AD，代表了一场日益严峻的全球健康危机，其标志是进行性认知衰退，这种衰退在早期即体现在自发性言语中[lindsay_language_2021, gumus_linguistic_2024]。“饼干偷窃”图片描述任务因其在受控环境中激发这些关键语言标记的临床实用性而得到广泛认可[qi_noninvasive_2023]。基于言语的痴呆症检测早期工作主要依赖传统机器学习范式[qiao_alzheimer8217s_2021, kurdi]。这些方法利用手动特征工程提取手工制作的声学参数——如基频和抖动——以及词汇多样性指标，随后使用支持向量机（SVM）或随机森林等算法进行分类[syed_tackling_2021, shankar_systematic_2025]。尽管这些模型具有较高的可解释性[calza_linguistic_2021]，但它们受限于对专家定义特征的依赖，以及其固有能力无法捕捉自发性话语中潜在的、非线性的依赖关系。后续深度学习的演进，特别是大型语言模型（LLM）如BERT的应用，显著提升了诊断性能[balagopalan_comparing_2021, wei_breaking_2026]。然而，这些模型主要隐式学习语义表示[balagopalan_bert_2020, ajroudi_exploring_2024, chlasta_enhancing_2025]，并且常常未能充分表征病理性言语中复杂、多维的结构退化。最近，研究人员探索使用图神经网络（GNN）来建模语言的复杂拓扑结构，取得了有希望的结果[cai_exploring_2023, hallani_graph_2025]。然而，当前该领域的研究在语言特征建模方面仍然不足。此外，现有框架通常依赖简单的融合策略（例如，拼接或固定权重求和），限制了模型对临床谱系中多样症状表现的自适应能力。

在本文中，我们提出了一种多视图图学习框架，通过以下创新解决当前研究中的两个关键空白：首先，我们引入了一个“内容–结构–流程”三位一体，用于全面的语言建模。传统方法往往忽视了话语的“流程”——即言语的逻辑推进。当语义图捕捉“内容”、依存图捕捉“结构”时，我们特别设计了一个基于来自健康规范数据的PMI的共现图。该图独特地反映了受试者描述局部事件的能力。在AD患者中，言语常常表现出无序的序列、逻辑跳跃和重复循环[burke_comparing_2023]。通过整合这一共现视角，我们的模型提供了语言模式的全频谱表征，不仅捕捉了所说的内容，还捕捉了叙事逻辑是如何展开的。其次，我们提出了一个门控融合机制来应对AD的临床异质性。临床观察表明，痴呆症状并非单一的：一些患者表现出“句法崩溃”（语法简化但词汇保留），而另一些则患有“语义空洞”（流利但无意义的言语）[fraser_linguistic_2015]。我们的门控网络在每个样本的基础上自适应地为语义、依存和共现表示分配权重。这使得框架能够捕捉样本特定的特征，动态关注每个个体最具区分性的语言标记。

总之，我们的贡献如下：

1. 1. 话语流程分析：我们利用基于PMI的共现图来量化事件描述逻辑与健康规范的偏差。
2. 2. 一个整体的多图框架：我们整合了语义图、依存图和共现图来建模自发性言语的“内容–结构–流程”。
3. 3. 异质性感知融合：我们实现了一个门控融合机制，该机制考虑了AD症状的多样性，增强了模型适应不同症状表现的能力。

参见图标题图1：提出的用于痴呆症检测的多视图门控图注意力网络框架概览。\(1\) 音频通过ASR转录并转换为词级嵌入。 \(2\) 构建语义图、共现图和依存图以捕捉多尺度语言模式。 \(3\) 由GAT层提取拓扑特征并通过全局池化进行聚合。 \(4\) 这些多视图特征由门控网络自适应融合。 \(5\) 融合后的特征输入MLP进行最终分类。
## 2 多视图门控GAT

我们提出了一个多维度图学习框架，如图1 (https://arxiv.org/html/2606.31186#S1.F1) 所示，旨在捕捉自发性言语的“内容–结构–流程”。该架构由五个主要模块组成，具体如下所述。

### 2.1 语音转录与节点嵌入

自动语音识别（ASR）：给定受试者描述“饼干偷窃”图片的原始音频信号，我们使用Whisper[pmlr-v202-radford23a]进行转录。Whisper的大规模弱监督训练使其对痴呆症影响下言语中常见的语流障碍具有极强的鲁棒性。输出是一个由 \(N\) 个单词组成的序列：\(S=\{w_1, w_2, \dots, w_N\}\)。

节点特征初始化：为了在高维语义空间中表示每个单词，我们使用预训练的BERT-base[devlin_bert_2019]模型。由于BERT采用WordPiece分词器，一个单词 \(w_i\) 可能被拆分为 \(k\) 个子词标记 \(\{t_{i,1}, t_{i,2}, \dots, t_{i,k}\}\)。为了保持转录文本与图节点之间的一一映射，我们将节点表示 \(\mathbf{x}_i \in \mathbb{R}^{768}\) 定义为其组成词元嵌入的均值：

\[\mathbf{x}_i = \text{MeanPooling}(\text{BERT}(t_{i,1}), \dots, \text{BERT}(t_{i,k})). \quad (1)\]一个转录文本的最终节点特征矩阵为 \(\mathbf{X} \in \mathbb{R}^{N \times 768}\)。

### 2.2 多视图图构建

我们定义了三个图 \(\mathcal{G}_{sem}\)、\(\mathcal{G}_{syn}\) 和 \(\mathcal{G}_{co}\)，它们共享相同的顶点集 \(\mathcal{V}\)，其中 \(|\mathcal{V}| = N\)。

#### 2.2.1 语义图：内容表示

该图建模概念密度和语义关系。我们计算每对单词嵌入 \(\mathbf{x}_i\) 和 \(\mathbf{x}_j\) 之间的余弦相似度[chen_iterative_2020]。如果相似度超过预定义阈值 \(\tau_s\)，则创建一条边 \(e_{ij} \in \mathcal{E}_{sem}\)：

\[\operatorname{Sim}(\mathbf{x}_i, \mathbf{x}_j) = \frac{\mathbf{x}_i^\top \mathbf{x}_j}{\lVert\mathbf{x}_i\rVert \, \lVert\mathbf{x}_j\rVert} > \tau_s. \quad (2)\]这捕捉了受试者全局语义结构特征。

#### 2.2.2 依存图：结构完整性

为了捕捉语法退化（例如，复杂从句的丢失），我们使用spaCy[honnibal2017spacy]进行依存句法分析。如果 \(w_i\) 和 \(w_j\) 之间存在直接的句法依存关系（例如，名词性主语、直接宾语、修饰语），则建立一条边 \(e_{ij} \in \mathcal{E}_{syn}\)。该图反映了受试者语言的结构复杂度[ivanova_defying_2023, lian_dependency_2025]。

#### 2.2.3 共现图：通过规范PMI的话语流程

为了捕捉“内容-结构-流程”三位一体中的“流程”维度，我们设计了一个共现图，用于量言语的逻辑推进和时序连贯性。传统的序列模型常常无法检测到AD影响下话语中特征性的微妙“逻辑跳跃”或重复循环。我们的方法通过测量受试者的词语关联与已建立的健康语言规范之间的偏差程度来解决这个问题。

我们首先仅使用健康对照组的转录文本构建一个规范语料库 \(\mathcal{D}_{hc}\)。该语料库作为语言参考基线，用于表征在“饼干偷窃”任务语境中自然的词语关联。我们为在 \(\mathcal{D}_{hc}\) 中大小为 \(n\) 的滑动窗口内共同出现的所有词对 \((w_i, w_j)\) 计算点式互信息（PMI）[church_word_1990, yao_graph_2018]：

\[\text{PMI}(w_i, w_j) = \log \frac{P(w_i, w_j)}{P(w_i) P(w_j)}, \quad (3)\]其中 \(P(w_i)\) 和 \(P(w_j)\) 是单个词的概率，\(P(w_i, w_j)\) 是在窗口内共现的联合概率。高PMI表示词语之间强烈且统计显著的关联（例如，“水槽”和“溢出”），反映了健康的叙事逻辑。

对于特定受试者的转录文本 \(S\)，我们通过将预先计算的规范权重映射到受试者的实际词序列来构建共现图 \(\mathcal{G}_{co}\)。如果 \(w_i\) 与任何后续词 \(w_{i+k}\)（其中 \(1 \leq k \leq n\)）之间的规范PMI超过预定义阈值 \(\tau_c\)，则在它们之间建立一条边 \(e_{ij} \in \mathcal{E}_{co}\)。

共现图 \(\mathcal{G}_{co}\) 中固有的结构密度直接作为话语连贯性的代理，有效地捕捉了自发性言语中细微的时间“流程”。在健康流程场景下——即受试者遵循逻辑且传统的叙事轨迹——生成的 \(\mathcal{G}_{co}\) 具有高密度的边和显著的PMI权重。这些元素共同构建了一个由规范词语关联组成的稳健且连接良好的拓扑“骨架”。相反，在AD患者中观察到的病理性破坏——表现为词语检索困难或逻辑转换不连贯——会产生相对于规范基线统计上罕见或无意义的词对。这最终导致了一个以稀疏或异常连接为特征的碎片化图拓扑结构。

### 2.3 通过GAT的视图特定编码

为了学习每个图内不同邻居的重要性，我们采用图注意力网络（GAT）[velickovic_graph_2018]。对于图 \(k \in \{sem, syn, co\}\) 中的节点 \(i\)，注意力系数 \(\alpha_{ij}\) 计算如下：

\[\alpha_{ij} = \frac{\exp\bigl(\operatorname{LeakyReLU}\bigl(\vec{a}^\top \bigl[\mathbf{W}\mathbf{x}_i \mathbin{\|} \mathbf{W}\mathbf{x}_j\bigr]\bigr)\bigr)}{\sum_{l \in \mathcal{N}_i} \exp\bigl(\operatorname{LeakyReLU}\bigl(\vec{a}^\top \bigl[\mathbf{W}\mathbf{x}_i \mathbin{\|} \mathbf{W}\mathbf{x}_l\bigr]\bigr)\bigr)}, \quad (4)\]其中 \(\vec{a}\) 和 \(\mathbf{W}\) 是可学习参数，\(\mathcal{N}_i\) 是节点 \(i\) 的邻域。更新后的节点特征 \(\mathbf{h}_i'\) 通过全局均值池化聚合形成全局图表示 \(\mathbf{z}_k\)：

\[\mathbf{z}_k = \frac{1}{N} \sum_{i=1}^N \mathbf{h}_i', \quad \mathbf{z}_k \in \mathbb{R}^{d_{gat}}. \quad (5)\]

### 2.4 异质性感知门控融合

鉴于AD症状各异（例如，一些患者失去句法，另一些失去语义逻辑），我们使用门控机制动态地为三个视图赋予权重[arevalo_gated_2017]。首先，我们拼接三个图向量：\(\mathbf{Z}_{cat} = [\mathbf{z}_{sem} \mathbin{\|} \mathbf{z}_{syn} \mathbin{\|} \mathbf{z}_{co}]\)。门控网络计算一个权重向量 \(\mathbf{g}\)：

\[\mathbf{g} = \text{Softmax}(\mathbf{W}_g \mathbf{Z}_{cat} + \mathbf{b}_g), \quad \mathbf{g} = [\beta_{sem}, \beta_{syn}, \beta_{co}]. \quad (6)\]融合后的表示 \(\mathbf{z}_{fused}\) 是一个加权和：

\[\mathbf{z}_{fused} = \beta_{sem} \mathbf{z}_{sem} + \beta_{syn} \mathbf{z}_{syn} + \beta_{co} \mathbf{z}_{co}. \quad (7)\]为了防止融合过程中丢失单个视图的细节，我们应用了一个直通拼接：

\[\mathbf{z}_{\text{final}} = \bigl[ \mathbf{z}_{\text{fused}} \mathbin{\|} \mathbf{z}_{\text{sem}} \mathbin{\|} \mathbf{z}_{\text{syn}} \mathbin{\|} \mathbf{z}_{\text{co}} \bigr]. \quad (8)\]这确保了分类器既可以访问“优化混合”，也可以访问每个语言维度的原始特定特征。

### 2.5 分类与目标函数

最终的向量 \(\mathbf{z}_{final}\) 通过一个多层感知器（MLP）。为了将受试者分类为AD或健康对照（HC），模型输出预测概率 \(\hat{y} = \text{Sigmoid}(\text{MLP}(\mathbf{z}_{final}))\)。为了提高模型的泛化能力并防止过度自信的预测，我们在训练过程中采用标签平滑。我们不使用硬二进制标签 \(y \in \{0, 1\}\)，而是将它们转换为软目标 \(y_{\text{ls}}\)：

\[y_{\text{ls}} = y(1 - \alpha) + \frac{\alpha}{K},\]

基于图注意力网络的门控多图融合用于阿尔茨海默病检测

相似文章

时间增强图注意力网络用于可供性分类

基于跨语言迁移学习的多语言语音阿尔茨海默病检测方法

利用深度学习进行具有不确定性意识的阿尔茨海默病进展纵向预测

TMR-GGNN：基于时间感知多关系引导图神经网络的信用卡欺诈检测

预测中期阿尔茨海默病进展：基于ADNI临床和生物标志物历史数据实现24个月CDR-SB变化的残差间隙感知变换器

提交意见反馈