ERP-XTTN：面向跨被试ERP分类的可解释原型引导交叉注意力

arXiv cs.LG 2026/06/03 04:00 论文

eeg-classification erp brain-computer-interface cross-attention interpretable-ai deep-learning

摘要

介绍了ERP-XTTN，一种无需校准即可跨被试进行可解释ERP分类的交叉注意力架构。在多个数据集上评估，它取得了与黑盒模型相媲美的性能，同时提供了透明的路由洞察。

arXiv:2606.02939v1 Announce Type: new 摘要：可解释的脑机接口分类器能够在无需校准的情况下跨被试泛化，这仍然是一个开放挑战。我们测试了基于原型的交叉注意力是否能在部署兼容的条件下提供具有竞争力且可解释的事件相关电位（ERP）分类。我们提出了ERP-XTTN，一种交叉注意力架构，通过仅查询-键交叉注意力（无值投影）将输入的脑电图（EEG）补丁路由到固定的差异波原型，使得分类完全依赖于注意力路由，且注意力忠实性是结构性的而非事后解释的。原型自动从训练折叠差异波的极值中推导得出。我们在三个公开数据集（BNCI Horizon 2020、HRI Cursor和ERP CORE）上进行了评估，涵盖八个ERP成分（ERN、LRP、ErrP、N170、P300、N2pc、MMN、N400），采用留一被试（LOSO）评估方法和因果滤波，包含两种通道数（3通道和全导联），并与EEGNet和基于黎曼几何的xDAWN（xDAWN+RG）进行对比。最佳基线与ERP-XTTN之间的平均差距在3通道时为0.018 AUROC，在全导联时为0.034 AUROC，这主要源于两个不同的方面：相对于EEGNet的时间灵活性成本和相对于xDAWN+RG的空间利用成本，后一成本由全导联下的信噪比驱动。除了准确性之外，透明的路由揭示了黑盒模型无法捕捉的跨被试信号结构：假阳性与真阳性的相似度高于与真阴性的相似度，表明分类错误在神经生理学上是可以解释的。ERP-XTTN在因果、免校准条件下泛化于多种ERP，且在最小导联设置下仅有很小的可解释性代价。据我们所知，这是首个在ERP CORE上进行试次级LOSO基准测试的工作。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:40

# ERP-XTTN：基于可解释原型引导的跨注意力机制用于跨被试ERP分类

来源：https://arxiv.org/html/2606.02939

Charlotte Genevier Wyman1,∗\orcid0009-0000-8927-0485 与 Leanne Hirshfield1\orcid0000-0003-0111-6948

1科罗拉多大学博尔德分校，博尔德，科罗拉多州，美国

∗通讯作者邮箱：[email protected] (https://arxiv.org/html/2606.02939v1/mailto:[email protected])

###### 摘要

**目标：** 可解释的脑机接口分类器，能够在无需校准的情况下跨被试泛化，仍然是一个未解决的挑战。我们评估了基于原型的跨注意力机制是否能在部署兼容的条件下，为不同范式的事件相关电位（ERP）分类提供具有竞争力且内在可解释的解决方案。

**方法：** 我们提出ERP-XTTN（ERP Cross-Attention），一种跨注意力架构，该架构通过仅包含查询-键的跨注意力（无值投影）将输入的脑电图（EEG）片段路由到固定的差异波原型，从而使得分类完全依赖于注意力路由。原型从训练折全体平均差异波中的显著极值自动提取。我们在三个公开数据集（BNCI Horizon 2020、HRI Cursor 和 ERP CORE）上进行了评估，涵盖八个ERP组件（ERN、LRP、ErrP、N170、P300、N2pc、MMN、N400）。评估采用留一被试（LOSO）交叉验证，并使用因果滤波，在两种通道条件（3通道和全导联）下进行，并与EEGNet以及结合黎曼几何的xDAWN（xDAWN+RG）进行了比较。

**主要结果：** 在3通道条件下，最佳基线与ERP-XTTN之间的平均性能差距为0.018 AUROC（接收者操作特征曲线下面积）；在全导联条件下，差距为0.034。该差距与两个大致不同的来源相关：相对于EEGNet的时间灵活性代价，该代价与注意力熵、路由可区分性和信噪比（SNR）相关；以及相对于xDAWN+RG的空间利用代价，该代价仅在全导联条件下由SNR驱动。对于两个组件（N400、N170），主导路由并未集中在典型命名组件的原型窗口内，这表明命名的偏转并不总是携带主要的跨被试判别信号。在大多数数据集中，假阳性在形态上比真阴性更像是真阳性，表明分类错误在神经生理学上是可解释的。

**意义：** ERP-XTTN在因果、无校准条件下能够泛化到多种ERP形态，在最小导联设置下仅付出较小的可解释性代价。其透明的路由提供了对跨被试信号组织的结构性见解，这是黑箱模型无法提供的。据我们所知，这是第一个在ERP CORE上进行的基于epoch级别LOSO基准测试。

###### 关键词：EEG分类，脑机接口，事件相关电位，跨被试泛化，可解释深度学习，跨注意力

## 1. 引言

事件相关电位（ERP）是通过脑电图（EEG）可测量的时间锁定神经反应，反映了感觉、注意和认知加工过程[19 (https://arxiv.org/html/2606.02939#bib.bib1)]，并支撑着多种脑机接口（BCI）应用，如错误检测和拼写系统[31 (https://arxiv.org/html/2606.02939#bib.bib4)]。部署就绪的ERP分类需要同时满足多个约束条件。为了实现在线兼容性，滤波必须是因果的：非因果滤波会引入未来样本，从而产生在任何前向处理流程中都无法复现的准确率估计。实际部署通常会限制通道数量，因为许多商用和移动设备缺乏研究级电极覆盖[25 (https://arxiv.org/html/2606.02939#bib.bib2)]。分类必须能够跨被试泛化，因为针对每个被试的校准会延迟设置并限制可扩展性[18 (https://arxiv.org/html/2606.02939#bib.bib32)]，而且标准校准流程对于相当一部分用户无法生成功能正常的分类器[28 (https://arxiv.org/html/2606.02939#bib.bib3)]。最后，临床和安全关键型应用要求分类决策是可解释的，而不仅仅是准确。这些约束条件因ERP形态的多样性而变得更加复杂。ERP涵盖额中央区错误响应（如错误相关负波ERN）、后部视觉组件（如N170）、低信噪比（SNR）的弥散响应（如N400）、偏侧化组件（如N2pc和偏侧化准备电位LRP）、被动听觉响应（如失匹配负波MMN）以及更广泛的错误相关电位（ErrP）家族[19 (https://arxiv.org/html/2606.02939#bib.bib1)]。一个通用的跨被试框架必须能够处理这种多样性，而无需针对特定组件进行架构或预处理选择。

跨被试ERP分类已从多个方向得到研究。通用深度学习架构，如EEGNet[14 (https://arxiv.org/html/2606.02939#bib.bib11),27 (https://arxiv.org/html/2606.02939#bib.bib37),17 (https://arxiv.org/html/2606.02939#bib.bib13)]，已在多个BCI范式下得到评估，而CNN-Transformer架构在留一被试（LOSO）评估中展现了具有竞争力的跨被试ErrP性能[23 (https://arxiv.org/html/2606.02939#bib.bib17),22 (https://arxiv.org/html/2606.02939#bib.bib18)]，尽管后者无法提供对单个分类决策的机制性见解。经典流程如收缩线性判别分析（LDA）[5 (https://arxiv.org/html/2606.02939#bib.bib8)]在跨被试ERP分类中表现出色，并能揭示判别性空间模式，但其可解释性依赖于固定的决策规则，而非每个分类的试验特定证据。xDAWN空间滤波[24 (https://arxiv.org/html/2606.02939#bib.bib19)]结合黎曼几何（xDAWN+RG）特征在跨被试任务中也表现良好[15 (https://arxiv.org/html/2606.02939#bib.bib34)]，但缺乏明显的生理学解释[17 (https://arxiv.org/html/2606.02939#bib.bib13)]。免校准的跨被试ErrP分类已有多种实现，包括广义LDA[26 (https://arxiv.org/html/2606.02939#bib.bib20)]、结合支持向量机分类器的xDAWN+RG流程[12 (https://arxiv.org/html/2606.02939#bib.bib36)]、集成分类器[4 (https://arxiv.org/html/2606.02939#bib.bib7)]以及基于在线PCA的流程[16 (https://arxiv.org/html/2606.02939#bib.bib12)]，但这些方法都不具备内在可解释性。领域自适应和领域泛化方法解决了ERP-BCI中的跨被试分布偏移问题[33 (https://arxiv.org/html/2606.02939#bib.bib23),32 (https://arxiv.org/html/2606.02939#bib.bib24),20 (https://arxiv.org/html/2606.02939#bib.bib14)]，但并非为可解释性而设计。

深度EEG架构的可解释性主要通过事后分析和离线预处理来实现，包括EEGNet的特征可视化和DeepLIFT相关性分析[14 (https://arxiv.org/html/2606.02939#bib.bib11)]，以及应用于ERP分类器的Grad-CAM[10 (https://arxiv.org/html/2606.02939#bib.bib10)]。事后重要性估计也被用于指导ErrP解码中的通道和时间窗口选择，这些估计值已通过错误处理神经生理学得到验证[6 (https://arxiv.org/html/2606.02939#bib.bib15)]。这些方法可以识别与训练模型预测相关的特征，并将其映射到已知的神经生理现象，在某些情况下甚至能在单试验水平上实现，但由于它们是在训练后计算的近似值，其与决策过程的忠实度无法保证；它们并非构建每个分类基础的证据。基于原型的嵌入学习方法实现了跨被试P300解码[29 (https://arxiv.org/html/2606.02939#bib.bib21),37 (https://arxiv.org/html/2606.02939#bib.bib26)]，但仅限于单一范式且不具备内在可解释性。基于时域ERP模板的判别性规范模式匹配已在多个ERP范式中得到验证，但仅限于被试内[36 (https://arxiv.org/html/2606.02939#bib.bib25)]。对ERP CORE的跨被试评估已有报道，包括基于折的分割[1 (https://arxiv.org/html/2606.02939#bib.bib5)]和时间点级LOSO解码[21 (https://arxiv.org/html/2606.02939#bib.bib16)]，但两者均未提供在部署兼容约束（如因果滤波）下的epoch级别LOSO分类基准。据我们所知，此前没有任何方法能够同时具备内在可解释性、LOSO评估、因果滤波以及覆盖多种不同ERP组件的能力。

本研究证明了基于原型的注意力路由能够在部署兼容约束下，为跨不同范式的ERP分类提供具有竞争力且内在可解释的方案。我们在此将ERP-XTTN（ERP Cross-Attention）[34 (https://arxiv.org/html/2606.02939#bib.bib38)]从最初仅适用于ErrP的应用进行了泛化，将其受约束的极性基原型提取替换为全自动峰值检测，从而不再需要针对特定组件的架构、预处理或训练选择。我们在三个公开数据集（BNCI Horizon 2020、HRI Cursor 和 ERP CORE）上进行了评估，涵盖八个ERP组件，采用LOSO交叉验证和因果无限脉冲响应（IIR）滤波，并在两种通道条件下进行，同时与EEGNet和xDAWN+RG进行比较。据我们所知，这是在部署兼容约束下首次对ERP CORE进行epoch级别LOSO基准测试。除了分类性能，我们还系统地分析了可解释性代价：是什么导致了性能差距？差距何时较小？该架构的透明路由揭示了关于跨被试ERP结构的哪些信息？

## 2. 方法

本节描述了九个数据集、共享的预处理流程、ERP-XTTN架构、两种基线方法、训练流程以及评估协议。

### 2.1 数据集

涵盖八个ERP组件的九个数据集（其中ErrP由两个数据集代表）使用目标化的3通道导联组合和完整可用导联组合进行了评估。表1 (https://arxiv.org/html/2606.02939#S2.T1)提供了数据集的高级摘要，详细描述如下。

表1：评估的数据集列表。仅包含EEG通道；在适用情况下排除了眼电图/参考通道。用于定位原型时间窗口（峰值检测）的检测通道；参见第2.3节 (https://arxiv.org/html/2606.02939#S2.SS3)。每被试试验次数指两个类别下的总分类epoch数，并在适用情况下跨会话求和（BNCI包含每名被试两个会话）。

#### 2.1.1 BNCI Horizon 2020 013-2015 (BNCI) - ErrP

BNCI¹¹¹BNCI Horizon 2020 013-2015公开获取于https://bnci-horizon-2020.eu/database/data-sets是一个64通道的EEG数据集，旨在诱发ErrP[7 (https://arxiv.org/html/2606.02939#bib.bib27)]。6名被试被要求监控一个向目标移动光标的主体性能；错误大约发生在20%的试验中。数据在两个会话中采集，每个会话平均包含110个错误试验和426个正确试验，总共每个会话约536个试验。

#### 2.1.2 HRI Cursor (HRI) - ErrP

HRI²²²HRI Cursor公开获取于https://github.com/stefan-ehrlich/dataset-ErrP-HRI是一个使用32个有源电极（27个头皮EEG，均在此分析，加上3个眼电图和2个乳突参考）记录的EEG数据集，旨在通过光标移动反馈在选择反应时任务中诱发ErrP[8 (https://arxiv.org/html/2606.02939#bib.bib28)]。11名被试通过按键对三个目标刺激之一做出反应，并以光标向目标移动或远离目标的形式呈现反馈；错误大约发生在35%的试验中。本工作仅使用光标场景；同一研究中配套的机器人转头场景被排除。被试平均有164个错误试验和319个正确试验，总共约483个试验。

#### 2.1.3 ERP CORE

其余七个数据集来自ERP CORE³³³ERP CORE公开获取于https://erpinfo.org/erp-core[11 (https://arxiv.org/html/2606.02939#bib.bib29)]，这是一个公开可用资源，为7种ERP提供标准化范式，以及来自40名被试的30通道EEG数据。请注意，原始的ERP CORE出版物[11 (https://arxiv.org/html/2606.02939#bib.bib29)]根据与其ERP平均流程相关的行为准确率和伪迹剔除标准，报告了较小的每个组件样本量（N = 34–39）。我们保留了所有40名参与者，因为我们的预处理省略了那些标准所预设的基线校正、重参考和眼动伪迹校正，同时保留所有参与者为跨被试泛化提供了更严格的测试。

ERN：错误相关负波使用Eriksen flanker任务诱发，被试需要识别由一致或不一致分心刺激包围的中心箭头方向。试验以反应锁定的方式分析，并分类为错误与正确反应。被试平均约有45个错误反应和356个正确反应。

LRP：偏侧化准备电位使用相同的flanker任务诱发，仅限于正确反应的试验，并按反应手进行分析。试验以反应锁定的方式分析，并分类为左手与右手反应。被试平均约有177个左手反应和179个右手反应。

MMN：失匹配负波使用被动听觉oddball任务诱发。在标准音（80 dB, p=0.8）和偏差音（70 dB, p=0.2）呈现的同时，被试观看无声视频。试验分类为偏差音与标准音。被试平均约有199个偏差音试验和782个标准音试验。

N170：N170使用面孔知觉任务诱发，被试判断每个刺激是完整物体（面孔或汽车）还是纹理（打乱的面孔或打乱的汽车）。仅使用完整刺激；试验分类为面孔与汽车。被试平均有80个面孔试验和80个汽车试验。

N2pc：N2pc是一种与隐性注意选择相关的偏侧化ERP组件。它使用视觉搜索任务诱发，被试观察两个半视野中的彩色方块阵列。在每个试验中，他们需要识别颜色定义的目标方块上一个小缺口出现在顶部还是底部边缘。试验分类为左目标与右目标。被试平均约有160个左目标试验和160个右目标试验。

N400：N400使用词对判断任务诱发。一个红色启动词后跟一个绿色目标词，被试判断该词对是否语义相关。试验分类为不相关与相关。被试平均有60个不相关试验和60个相关试验。

P300：P300使用主动视觉oddball任务诱发，字母以等概率呈现，每个区块中指定一个为目标。试验分类为目标与非目标。被试平均有40个目标试验和160个非目标试验。

本研究仅使用公开可用的、已去标识化的数据。

ERP-XTTN：面向跨被试ERP分类的可解释原型引导交叉注意力

相似文章

X-SYNTH：超越检索——基于观察到的人类注意力的企业情境合成

时间增强图注意力网络用于可供性分类

结构化提示优化与强化学习结合实现复杂文本的全局与局部可解释性

光谱探针电路：识别预训练Transformer中注意力头电路的三步法

AttnGen：面向可解释基因组序列分类的注意力引导显著特征学习

提交意见反馈