频谱先验 vs. 注意力：探究注意力机制在基于脑电图的诊断中的效用

arXiv cs.LG 2026/05/18 04:00 论文

摘要

本文表明，使用脑电图信号频谱特征的传统机器学习模型在诊断神经退行性疾病方面能够达到或超越最先进的基于注意力的深度学习模型，暗示了注意力机制在该领域的根本局限性。

arXiv:2605.15433v1 公告类型：新摘要：脑电图（EEG）时间序列信号具有显著的噪声和粗空间分辨率特征，这使得神经退行性疾病的分类变得复杂。即使是最先进的深度学习架构也难以区分健康对照者和患病受试者，或区分不同疾病类型，这是由于组间高度相似性。在本文中，我们表明，一种频谱选择性的特征构建方法能够增强类别可分离性。通过分离主要脑波频带内的信号强度，我们将高维原始数据转化为高价值的频谱特征。我们的结果表明：a）从频域和时频域导出的特征使得传统机器学习模型能够达到或超越最先进的深度学习模型的性能；b）注意力机制无法提炼出表征健康神经活动稳定特征签名的特征，无论是在静息态还是任务态脑电图中；c）基于注意力的模型在寻找相关频谱特征方面的局限性似乎是根本性的，因为提供频率选择性的时域输入并未明显改善其性能。我们在三个开源静息态脑电图数据集和一个任务态脑电图数据集上验证了我们的方法，为我们的主张提供了可靠的实证证据。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:41

# 探究注意力机制在脑电图诊断中的应用

来源：https://arxiv.org/html/2605.15433  
11institutetext:辛辛那提大学，辛辛那提，俄亥俄州，美国  
11email:jawadkk@mail\.uc\.edu, \{atlurigm, ravindvm\}@ucmail\.uc\.edu

###### 摘要

脑电图（EEG）时间序列信号以显著的噪声和粗糙的空间分辨率著称，这给神经退行性疾病的分类带来了复杂性。即使是最先进的深度学习架构也难以区分健康对照与患病受试者——或者由于组间高度相似性而难以区分不同疾病类型。

在本文中，我们表明一种频谱选择性特征构建方法能够增强类别可分性。通过隔离主要脑波频带——δ、θ、α、β、γ——内的信号强度，我们将高维原始数据转化为高价值频谱特征。

我们的结果表明：a) 基于频域和时频域的特征使传统机器学习模型能够匹配甚至超越最先进深度学习模型的性能；b) 注意力机制无法提取出在静息态和任务态脑电中表征健康神经活动的稳定特征标记；c) 基于注意力的模型在寻找相关频谱特征方面的局限性似乎是根本性的，因为提供频率选择性的时域输入并未显著改善其性能。我们在三个开源静息态脑电数据集和一个任务态脑电数据集上验证了我们的方法，为我们的主张提供了强有力的实证证据。

## 1 引言

脑电图（EEG）是一种非侵入性的神经影像数据模态，用于测量大脑的电活动。EEG记录由放置在颅骨表面的一组电极组成。EEG以电极对之间的微小电压变化来衡量大脑活动。EEG信号广泛用于理解、诊断、评估和监测神经退行性疾病中的大脑活动和认知能力。它们也常被脑机接口（BCI）用作输入模态。

EEG数据的时序分类在诊断和预测不同神经系统疾病（如阿尔茨海默病、帕金森病、痴呆症和注意力缺陷障碍）的发病方面具有特别的临床意义。基于注意力的Transformer架构已被提出，其目标是利用信号中的时间依赖性[4,5,6]。然而，EEG信号已知表现出显著的受试者间变异性和非平稳的时间动态。尽管Transformer擅长建模准平稳序列（如文本数据）中的长距离依赖关系，但它们缺乏解缠神经生理数据中固有的重叠振荡分量所需的特定归纳偏置。Yu等人[28]最近的方法设计了一种集中式令牌分配策略，以与医学时间序列中全局分布的判别性信号对齐。

在本文中，我们表明传统的分类方法（如二次判别分析和随机森林）在处理频谱特征时，与最先进的基于注意力的架构在诊断不同神经病理学方面相当，有时甚至更优。我们还证明，将这些频谱特征作为输入并未显著提升基于注意力的架构的性能，这表明注意力机制在准平稳信号中缺乏时间显著性，其中判别性生物标记全局分布在记录中，而非定位在自注意力设计优先处理的离散时间事件中。从方法论上讲，一个轻量级的框架提取信息丰富的生物标记，在基准脑电数据集中提供了更强的决策边界。

## 2 方法

给定一个从人群中抽取的EEG数据集及其相关标签（例如：健康 vs 疾病），我们的目标是构建具有高判别力的相关特征。我们通过介绍相关术语和技术来开始描述我们的方法。

### 2.1 特征构建

设一个EEG会话由矩阵 \(X \in \mathbb{R}^{C \times T}\) 表示，其中 \(C\) 表示通道数，\(T\) 表示时间点数。在将所有数据集降采样至256 Hz后，我们将五个频带（PSD值）的信号强度和通过Welch FFT计算的频谱频率度量输入Transformer。我们对原始信号进行带通滤波，保留0.5-45 Hz的频率范围。我们记采样率为 \(f_s\)。对于每个这样的会话，我们：a) 对每个时间序列进行中心化，b) 使用Welch方法的快速傅里叶变换（FFT）提取频谱特征，得到频域中的频带信号强度和频谱频率值，以及c) 应用离散小波变换（DWT）来捕获时间信号的非平稳频率分量，并获取时频域中的相对频带能量。

**基于Welch的FFT频带功率：** 对于每个通道，\(\tilde{x}_c\) 是我们的中心化零均值时间序列。为了时域信号的频率分辨率，我们通过Welch方法使用Hann窗和重叠段[13]估计功率谱密度（PSD），记作 \(\widehat{S}_c(f)\)。对于每个频带 \(b = [f_b^{\min}, f_b^{\max}]\)，绝对频带功率为 \(P_{c,b}^{\mathrm{abs}} = \int_{f_b^{\min}}^{f_b^{\max}} \widehat{S}_c(f) \, df\)。不同感兴趣频带的相对频带功率为 \(P_{c,b}^{\mathrm{rel}} = \frac{P_{c,b}^{\mathrm{abs}}}{\sum_{b' \in \mathcal{B}} P_{c,b'}^{\mathrm{abs}} + \varepsilon}\)（其中 \(\varepsilon = 10^{-12}\)）。我们计算5个典型EEG频带的相对频带功率（\(\delta\)：0.5–4 Hz，\(\theta\)：4–8 Hz，\(\alpha\)：8–13 Hz，\(\beta\)：13–30 Hz，\(\gamma\)：30–45 Hz），并跨通道聚合形成会话级FFT特征 \(\mathrm{FFT}_b = \frac{1}{C} \sum_{c=1}^{C} P_{c,b}^{\mathrm{rel}}\)。

利用相同的Welch PSD \(\widehat{S}_c(f)\)（限制在0.5–45 Hz），我们计算每个通道的平均频率、中位频率和谱熵，然后跨通道取平均。记归一化谱为 \(p_c(f) = \widehat{S}_c(f) / \int \widehat{S}_c(u) \, du\)，谱熵为 \(H^{(c)} = -\int p_c(f) \ln p_c(f) \, df\)，其余汇总统计量从 \(p_c(f)\) 类似计算并通道平均。

**离散小波变换（DWT）频带能量：** 对于非平稳时间信号，从Welch-FFT中未发现的频率的时间成分由DWT捕获。对于每个通道 \(c \in \{1,\ldots,C\}\)，我们有 \(\tilde{x}_c \in \mathbb{R}^{T}\) 作为逐通道直流中心化时间序列，\(f_s\) 是我们的采样率。我们计算一个 \(L\) 级DWT（小波 \(\psi\)，默认db4），得到近似系数 \(cA_{c,L}\)（低频成分的更长时域分辨率，直至 \(f_s/2^{L+1}\)）和细节系数 \(\{cD_{c,j}\}_{j=1}^{L}\)（高频成分在二进频率范围内的更短时域分辨率）。我们通过平方 \(\ell_2\) 范数定义各级能量：\(E_{c,L}^{A} = \|cA_{c,L}\|_2^2\)，\(E_{c,j}^{D} = \|cD_{c,j}\|_2^2\)，\(j=1,\ldots,L\)。

每个细节级 \(j\) 与名义二进区间 \(\mathcal{I}_j = (f_s/2^{j+1}, f_s/2^j)\) 相关联。为了获得典型EEG频带 \(\mathcal{B} = \{\delta, \theta, \alpha, \beta, \gamma\}\) 中的能量，我们将DWT子带能量——那些来自支撑区间为 \(I^A = (0, \frac{f_s}{2^{L+1}})\) 的近似系数 \(cA_{c,L}\) 和来自支撑区间为 \(\mathcal{I}_j\) 的细节系数 \(\{cD_{c,j}\}_{j=1}^{L}\) ——映射到每个EEG频带。我们计算子带区间与目标频带限之间的分数重叠，用于此映射。这产生从DWT子带到典型频带的确定性映射（而非频带内PSD估计）。然后我们在通道内归一化，并跨通道取平均，得到会话级特征 \(\mathrm{DWT}_b\)。我们为每个时段选择 \(L\) 作为给定时段长度和小波支撑下允许的最大分解深度（PyWavelets的dwt_max_level），上限为最大值（此处 \(L \leq 8\)）。例如，当 \(f_s=256\) Hz且 \(T=256\)（1秒）时，db4得到 \(L=5\)，使得 \(cA_{c,L} = f_s/2^{L+1} = 4\) Hz，将近似截止与 \(\delta\) 频带的上限对齐。

*总之，我们的特征集由5个频带中的相对PSD、这些频带中的相对小波强度以及频谱汇总特征（频谱平均频率、频谱中位频率和谱熵）组成。*

### 2.2 经典基线和频谱特征分类

我们训练简单的分类器，这些分类器处理频谱特征（如上所述）以输出预测标签。在我们的实验中，我们选择二次判别分析（QDA）和随机森林。QDA通过将每个观测值分配给后验概率最高的类别来最小化总误分类概率。它通过计算基于类别特定的高斯分布来最小化期望损失的二次决策边界来实现这一点。随机森林是一种集成学习技术，通过构建许多独立的决策树来工作，每棵树在数据的随机子集和特征的随机选择上进行训练。它通过多数投票产生最终预测。在脑电数据诊断的背景下，我们表明这些分类器与许多最先进的基于注意力的深度学习模型相当，有时甚至超过它们。

## 3 结果

#### 3.0.1 数据集

我们在总共四个公开可用的数据集上展示了我们的结果，这些数据集针对不同的病理，包括三个静息态脑电数据集和一个任务态脑电数据集。APAVA[10]数据集有16个通道和23名受试者，其中12名阿尔茨海默病患者和11名健康对照作为标签。TDBrain[11]数据集有33个通道，我们抽样了50名受试者，其中25名帕金森病患者和25名健康对照。ADFTD[12]数据集有88名受试者，19个通道，三个类别，其中23名痴呆患者，36名阿尔茨海默病患者和29名健康对照。对于任务态脑电，我们整合了ADHD[28]数据集，有19个通道，包括61名ADHD患者和60名健康对照。

### 3.1 传统分类器上手工设计的特征与基于注意力的方法之间观察到性能相当

对于每个数据集中的每个EEG会话，我们按照2.1节所述计算频谱特征。我们使用Medformer[4]中建立的协议划分数据为训练集、验证集和测试集，以确保公平比较。特征进行Z-score归一化，其中均值和标准差严格在训练集上计算，然后应用于验证集和测试集，以防止数据泄露。

我们评估了两种传统分类器——二次判别分析（QDA）和随机森林（RF）——与三种最先进的基于注意力的架构：Medformer、Reformer[8]和EEG Conformer[22]。对于传统分类器，我们使用主成分分析（PCA）降低维度，通过在验证集上网格搜索超参数以最大化宏观F1。在QDA中，我们调整保留的PCA方差和正则化参数以处理多重共线性。对于随机森林，我们调整估计器数量、最大深度和每个叶子所需的最小样本数。

表1：传统分类器（QDA和随机森林）和基于注意力的方法（Medformer、Reformer和Conformer）在四个EEG数据集上的宏观平均分类性能（%）。对于每个分类器，每个数据集报告宏观平均指标。*ML模型发现的最高标准差为2.35（ADFTD上的RF）和1.32（ADHD上的Conformer）。*我们将每个数据集的最佳指标得分标为粗体。我们的结果表明，在4个EEG数据集中，QDA在3个数据集中优于所有其他模型（RF在TDBrain上优于QDA），使用在时间戳和通道上聚合的FFT DWT分量。总体而言，经典机器学习管道在所有数据集上的数字与Transformer模型相当。在Transformer模型中，TeCh在APAVA和TDBrain上产生强劲数字，Medformer在ADFTD和ADHD上优于其他Transformer模型。RF和QDA分别在TDBrain和APAVA数据集上获得的高性能指标可以归因于评估测试集的选择。然而，为了确保方法之间的可比性，我们选择保留与Medformer论文[4]中报告相同的训练/测试划分。表1中总结的结果显示，在多个指标上，QDA在ADFTD、APAVA和ADHD上取得优越性能。随机森林在TDBrain数据集上提供最佳结果。我们注意到Transformer架构的核心前提是存在需要动态加权的潜在时间“事件”。然而，在静息态EEG（ADFTD、APAVA和TDBrain数据集）的背景下，感兴趣的生物标记主要是振荡功率和相位耦合[21,26]。这些测量在分析的窗口内本质上是平稳的。通过将EEG视为一系列离散令牌，Transformers忽略了信号底层的连续物理特性，试图在缺乏显著时间地标的时域中进行“注意力”。虽然在任务态EEG（ADHD数据集）中类似的考虑相关，但存在一些事件相关的时段，注意力机制可以利用这些时段。这解释了Transformer模型在精度、AUROC和AUPRC上的竞争性表现。最后，我们注意到QDA和RF完美分类了APAVA和TDBrain，表明这两个数据集内具有强类内分组。

参考说明(a) QDA  
参考说明(b) Conformer  

图1：ADFTD上留出测试集的混淆矩阵，比较经典管道 vs. Transformer。行表示真实标签（'A': 阿尔茨海默

频谱先验 vs. 注意力：探究注意力机制在基于脑电图的诊断中的效用

相似文章

基于重建的脑电图基础模型中的非周期与低频频谱偏差

超越增强：评分引导的病理先验用于基于EEG的抑郁症检测

光谱探针电路：识别预训练Transformer中注意力头电路的三步法

比较用于解释抑郁症检测中黑盒EEG模型的事后可解释性AI方法

EEG基础模型中的身份陷阱：诊断性审计

提交意见反馈