EEG基础模型中的身份陷阱:诊断性审计
摘要
本文识别并诊断了EEG基础模型中的“身份陷阱”,即高准确率可能源于受试者身份特征而非真实的临床生物标志物。它提出了FMScope,一种冻结表示协议以分离这些信号,并证明了受试者身份混杂在三模型中普遍存在且可通过线性方法移除。
arXiv:2606.06647v1 Announce Type: new
摘要:目标。EEG基础模型(FM)在临床静息态EEG上报告了强大的准确性。然而,在受试者分离交叉验证下的高准确性仍然模糊不清:它可能反映真实的临床生物标志物,或与标签相关的受试者身份特征。我们将此命名为“身份陷阱”,并询问是否可以在微调之前的表示层面进行诊断。
方法。我们提出FMScope,一种冻结表示协议,包含五个诊断:方差分解、受试者轴擦除、非周期性1/f消融、逐层标签探测和受试者内方向一致性。我们将其应用于三个预训练的FM(LaBraM、CBraMod、REVE),涵盖四个数据集,采用2×2布局:标签的受试者关系 × 是否存在共识的跨受试者EEG标记。
主要结果。(i) 身份陷阱是普遍的:冻结的受试者方差在12/12对中比随机零值高13-89倍,在微调下所有12对均上升(+10到+63个百分点)。这种主导地位是一个可移除的线性轴:擦除它可以在标签在受试者内部变化时改善标签解码(初级细胞中+6到+12个百分点;外部队列中+4到+27个百分点)。(ii) 非周期性1/f是一个受试者载体:移除它会使LaBraM和CBraMod上的受试者探测下降9-19个百分点。REVE的受试者身份饱和,没有可测量的非周期性依赖性。(iii) 微调仅在有文献确立的跨受试者标记的细胞中放大标签方差。
意义。身份陷阱是捷径学习的一个基于物理的实例:首选线索具有可测量的生理成分,仅凭受试者分离分割无法排除它。FMScope将反映生物标记的增益与反映受试者身份的增益分离开来。
查看缓存全文
缓存时间: 2026/06/08 09:17
# EEG基础模型中的身份陷阱:一项诊断性审计
来源:https://arxiv.org/html/2606.06647
Jun-You Lin
国立阳明交通大学医学院,台北,台湾
Ying Choon Wu
加州大学圣地亚哥分校斯沃茨计算神经科学中心,拉霍亚,CA 92037,美国
Tzyy-Ping Jung
加州大学圣地亚哥分校斯沃茨计算神经科学中心,拉霍亚,CA 92037,美国
ORCID: 0000-0002-8377-2166.
###### 摘要
**目的**。EEG基础模型(FMs)在临床静息态EEG上报告了强劲的宏观准确率。然而,在受试者分离的交叉验证下的高准确率仍然模棱两可:它可能反映真实的临床生物标志物,也可能反映与该队列中的标签相关的受试者身份特征。我们将这种模糊性命名为**身份陷阱**,并探讨在微调之前是否可以在表征层面诊断它。
**方法**。我们提出**FMScope**,一个冻结表征的预飞行协议,包含五个诊断组件:方差分解、受试者轴擦除、非周期性1/f消融、逐层标签探测和受试者内部方向一致性。我们将其应用于三个预训练的Transformer FM(LaBraM、CBraMod、REVE),涵盖四个公开静息态数据集(心算、睡眠剥夺、阿尔茨海默病与额颞叶痴呆、特质压力),并采用先验的2×2设计方案:标签的受试者关系 × 是否存在共识性跨受试者EEG标志物。
**主要结果**。(i) 身份陷阱在所有三个FM中普遍存在:在12对中的12对中,冻结的受试者方差分数是随机高斯零假设的13–89倍,并且在所有12对中微调后上升(+10至+63个百分点)。这种主导地位位于一条可移除的线性轴上:擦除该轴在标签随受试者变化时显著改善了标签解码(主要单元中+6至+12个百分点;在四个外部共识标志物队列中+4至+27个百分点;单侧符号检验p<10^{-3})。(ii) 非周期性1/f是一种可识别的受试者载体:移除它使LaBraM和CBraMod上的受试者探测均匀下降9–19个百分点。REVE饱和了受试者身份,没有可测量的非周期性依赖性,并且在线性擦除后残留了非线性可解码成分:身份陷阱是普遍的,但其载体和线性可移除性因模型而异。(iii) 微调仅在具有文献确立的跨受试者EEG标志物的单元中放大了标签方差(+0.6至+8.4个百分点)。无共识单元跨越零,表明没有标签信号可供微调放大。
**意义**。身份陷阱是捷径学习的一个有物理依据的实例:优先线索具有输入中可测量的生理成分,而非纯统计假象,并且仅凭受试者分离的分割无法排除它。因此,**FMScope**能够将反映生物标志物的收益与反映受试者身份的收益分离开来。
**关键词**:EEG基础模型;受试者身份混杂;捷径学习;表征分析;临床生物标志物;静息态EEG。
## 1 引言
EEG基础模型(FMs)在大型无标签EEG语料库上通过自监督掩码建模目标进行预训练,已被提议作为临床脑电图学的通用基础(Jiang et al., 2024 (https://arxiv.org/html/2606.06647#bib.bib1);Wang and others, 2025 (https://arxiv.org/html/2606.06647#bib.bib2);El Ouahidi et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib3))。在具有既定受试者内部神经对比(运动想象、事件相关电位、睡眠分期)的下游任务上,报告的性能很强劲(Xiong et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib8);Wu et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib9);Kastrati et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib16)),这建立在跨受试者分类协议十年的基础上(Lotte et al., 2018 (https://arxiv.org/html/2606.06647#bib.bib45))。然而,在小N静息态EEG(rsEEG)上,情况变得碎片化,而这正是对精神科和神经退行性生物标志物最重要的场景。在规模和记录质量相当的队列上,FM的性能在不同临床标签间变化很大(Shen et al., 2026 (https://arxiv.org/html/2606.06647#bib.bib7));控制这种变化的原因尚未在表征层面得到解决。
考虑Komarov等人(2020 (https://arxiv.org/html/2606.06647#bib.bib5))的自我报告慢性压力数据集。先前对该数据集的FM评估报告了峰值平衡准确率为0.9047,使用固定的80/10/10训练/验证/测试分割,其中同一受试者出现在不同的折叠中(四个数据分割种子中最佳的一个;最差的种子达到0.67)(Wang et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib4))。在同一数据集上,在受试者分离的交叉验证下,我们在三个FM和五个经典基线中观察到0.43–0.50(第4.1节 (https://arxiv.org/html/2606.06647#S4.SS1))。这两个数字在各自的协议下都可能是正确的。但两者都无法告诉我们FM实际上学到了关于标签的什么信息。单个准确率数字无法解决这种模糊性。
受试者分离交叉验证下的高平衡准确率至少与三种解读一致:(i) FM捕获了临床标签的真实跨受试者EEG标志物;(ii) FM捕获了稳定的生理受试者特征,这些特征恰好与该队列中的标签共变;或(iii) FM捕获了两者的纠缠,在读出时无法分离。现有基准列举了分数(Shen et al., 2026 (https://arxiv.org/html/2606.06647#bib.bib7);Xiong et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib8);Wu et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib9);Kastrati et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib16));协议批评指出,在试次级交叉验证下,受试者身份泄漏是一个通货膨胀来源(Brookshire and others, 2024 (https://arxiv.org/html/2606.06647#bib.bib15))。这种内在张力并非EEG特有。静息态fMRI指纹识别表明,个体间稳定的脑活动差异足以识别受试者(Finn and others, 2015 (https://arxiv.org/html/2606.06647#bib.bib10)),并且识别受试者的连接与预测行为的连接占据了连接组的不同功能系统(Mantwill et al., 2022 (https://arxiv.org/html/2606.06647#bib.bib44))。这些结果共同表明,在脑成像模态中,稳定的受试者识别结构与生物标志物所依赖的任务相关信号之间存在反复竞争。这两条研究路线都确定了问题的存在。但都没有告诉我们,对于特定的队列×FM配对,在表征层面上是三种解读中的哪一种在起作用。
我们通过EEG频谱的一个充分表征的生理成分来解决这个问题:非周期性1/f背景。标准的FOOOF分解将EEG功率谱分为两部分:一个宽带1/f^χ成分(非周期性背景本身),以及在规范频段(如theta和alpha)的窄带周期峰(Donoghue et al., 2020 (https://arxiv.org/html/2606.06647#bib.bib26))。周期峰携带瞬时的、任务相关的状态信息,临床生物标志物通常会索引这些信息。非周期性背景反映了记录的更稳定的特性:皮质兴奋-抑制平衡和警觉状态(Gao et al., 2017 (https://arxiv.org/html/2606.06647#bib.bib27)),以及在个体间变化并跨会话持续的电极级特征(Kopčanová et al., 2024 (https://arxiv.org/html/2606.06647#bib.bib31))。在普通EEG分析中,研究人员将非周期性背景视为每个受试者的干扰,并通过拟合参数模型来移除它,然后再分析周期峰。FMs在没有受试者感知目标的情况下进行预训练,因此尚不清楚它们的表征是否以相同方式移除了非周期性成分,还是将其保留为编码受试者身份的轴。这提出了一个具体的、相关的问题:在小N rsEEG上,EEG FM表征是否沿着相同的表征方向将非周期性1/f背景与受试者身份**共编码**?我们可以在LaBraM和CBraMod上进行测试;在REVE上测试没有结论,因为REVE在其他两个FM的基础上在五个设计轴上同时有所不同(第5.5节 (https://arxiv.org/html/2606.06647#S5.SS5))。
独立于这个载体问题,微调显示出一种细胞条件模式:它在每个细胞中都放大了受试者相关方差,但仅在文献已确立跨受试者神经标志物的细胞中放大标签相关方差。我们在四个公开的小N临床rsEEG数据集上测试这个假设,这些数据集先验地选择以填充2×2采样布局(标签的受试者关系 × 是否存在共识性跨受试者EEG标志物),涵盖三个预训练的Transformer FM(LaBraM、CBraMod、REVE)。我们将测试所需的诊断打包为**FMScope**(图1 (https://arxiv.org/html/2606.06647#S1.F1)),这是一个带有每个工具明确范围条件的冻结表征框架。我们做出四项贡献。
首先,我们称之为**身份陷阱**的经验发现:在12个(细胞×FM)冻结配对中,受试者方差分数是匹配随机高斯零假设的13–89倍;微调下,受试者方差分数在所有12个配对中上升+10至+63个百分点。这种主导地位限于一条可移除的线性轴:闭式受试者轴擦除使线性受试者探测在所有12个配对中达到机会水平,并且在标签随受试者变化时,擦除身份显著改善了标签解码(主要单元中+6至+12个百分点;在四个外部共识标志物队列中+4至+27个百分点;单侧符号检验p<10^{-3})。其次,关于1/f–受试者共编码假设的表征相关物:移除非周期性1/f成分使LaBraM和CBraMod上所有四个单元的线性受试者探测均匀下降9至19个百分点。REVE没有显示可测量的非周期性依赖性;LaBraM和CBraMod组与REVE在五个并发设计轴上不同(第5.5节 (https://arxiv.org/html/2606.06647#S5.SS5)),因此我们描述性地报告这种二对一模式,而非作为机制声明。第三,细胞条件结果图:微调仅在具有共识性跨受试者EEG标志物的单元中放大标签方差(Mann–Whitney U,单侧p=0.0022,n=12),并且在所有三个FM上,逐层标签探测在无共识特质单元中单调下降至机会水平。第四,FMScope诊断框架本身,包括其每个工具的范围条件,以及基于以上三个发现的临床/协议指南:在状态允许的情况下,将特质单元标签记录为受试者内部对比,并且在不能的情况下寻求外部生理验证;在任何BCI校准声明之前,验证受试者内部的分类器方向在受试者之间一致;以及在花费任何微调计算之前,进行返回每个单元结论的冻结特征预飞行(表4 (https://arxiv.org/html/2606.06647#S5.T4))。
参见图注
图1:FMScope概览。对来自预训练Transformer EEG-FM的嵌入应用五个冻结表征诊断。其中两个诊断建立了身份陷阱:方差分解和受试者轴擦除(LEACE)。另外三个表征了其起源和结构:非周期性输入消融、逐层受试者/标签探测和受试者内部方向一致性。中心:受试者身份形成了冻结表征的主导轴,而临床标签则较弱;插图显示了受试者线性分量的闭式移除(LEACE)。嵌入特征空间中的颜色和形状分别示意性地表示认知标签和个体受试者贡献的变化。每个工具的范围条件和详细信息见第3节 (https://arxiv.org/html/2606.06647#S3);结果见第4节 (https://arxiv.org/html/2606.06647#S4)。
## 2 相关工作
##### EEG基础模型。我们锚定三个开放权重的骨干网络。
**LaBraM**(Jiang et al., 2024 (https://arxiv.org/html/2606.06647#bib.bib1))将原始EEG片段通过时间CNN馈入Transformer编码器。预训练目标是每个片段的离散向量量化码;一个单独的解码器将每个码映射回片段的傅里叶幅度和相位,因此编码器必须学习支持傅里叶重建的特征。它在约2,500小时的混合EEG上进行预训练。
**CBraMod**(Wang and others, 2025 (https://arxiv.org/html/2606.06647#bib.bib2))使用一个十字交叉Transformer,将空间和时间注意力分解为两个并行机制。其片段嵌入添加了两个分支:时间CNN和FFT导出的能量向量。预训练在MSE损失下重建原始EEG片段。它在Temple University EEG Corpus的一个经过清理的约9,000小时子集上进行预训练(TUEG总计:约15,000名受试者,约27,000小时)。
**REVE**(El Ouahidi et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib3))是一个时空Transformer,使用4D傅里叶正弦位置编码和原始信号上的线性片段嵌入。预训练在L1损失下重建原始EEG,并附加一个注意力池化辅助任务。它在来自92个数据集的约60,000小时EEG上进行预训练,涵盖25,000名受试者。
所有三个模型都使用掩码建模自监督,但在至少五个设计轴(目标表示、片段嵌入、重建损失、位置编码、预训练语料库多样性)上有所不同,因此我们描述性地报告跨FM对比,而非作为机制声明。所有三个模型在事件相关EEG基准测试上都报告了强劲的下游性能(Xiong et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib8);Wu et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib9)),但尚未有模型在小N临床静息态队列的表征层面得到表征。
##### 受试者泄漏和评估协议。先前的批评已经确定,临床EEG中的试次级交叉验证通过训练-测试边界的受试者泄漏膨胀了准确率(Brookshire and others, 2024 (https://arxiv.org/html/2606.06647#bib.bib15)),最近的基准测试(Xiong et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib8);Wu et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib9);Kastrati et al., 2025 (https://arxiv.org/html/2606.06647#bib.bib16);Shen et al., 2026 (https://arxiv.org/html/2606.06647#bib.bib7))广泛采用受试者分离的分割(任务特定例外,例如在EEG-FM-Bench中为情绪识别保留受试者依赖的分割)。这些工作记录了通货膨胀;它们没有表征一旦强制执行受试者分离的分割,FM学会了什么来代替泄漏的受试者信号。我们的出发点是即使在受试者分离分割后仍然存在的模糊性:准确率仍然可能反映受试者相关特征,这些特征恰好与特定队列中的临床标签共变。我们在表征层面询问这些特征实际上是什么。一项同步研究(Tang et al., 2026 (https://arxiv.org/html/2606.06647#bib.bib49))对EEG-FM提出了相同的问题,也使用LEACE风格的擦除作为诊断,但应用于词典。相似文章
基于重建的脑电图基础模型中的非周期与低频频谱偏差
本文识别并解释了一种基于重建的脑电图基础模型中的频谱偏差:嵌入表示过度表征非周期和低频成分,而低估振荡成分(尤其在高频段),导致低资源场景下性能不佳。
通过稀疏自编码器实现脑电图基础模型的机制可解释性
本文对三个脑电图基础模型(SleepFM、REVE、LaBraM)应用TopK稀疏自编码器,提取可解释的特征字典,并引入了概念引导框架,揭示了表征失败和临床纠缠问题。
比较用于解释抑郁症检测中黑盒EEG模型的事后可解释性AI方法
本文比较了应用于基于EEG的抑郁症检测的InceptionTime模型的几种事后可解释性方法,发现方法之间部分收敛,同时强调了方法学上的差异性和局限性。
通过变分深度嵌入发现可解释的EEG微状态:基于多象限评估的系统架构搜索
本文提出了Conv-VaDE,这是一种用于发现可解释脑电图(EEG)微状态的变分深度嵌入模型,该模型联合学习地形重构和概率软聚类。它包含对静息态EEG数据进行评估的系统架构搜索,以确定最佳模型配置以实现稳定性和可解释性。
频谱先验 vs. 注意力:探究注意力机制在基于脑电图的诊断中的效用
本文表明,使用脑电图信号频谱特征的传统机器学习模型在诊断神经退行性疾病方面能够达到或超越最先进的基于注意力的深度学习模型,暗示了注意力机制在该领域的根本局限性。