PRISM:基于优先级通道重要性与半监督领域适应的跨被试脑电图情绪识别
摘要
PRISM是一个新颖的跨被试脑电图情绪识别框架,它通过轻量级专家集成实现优先级通道重要性加权,并结合使用置信度过滤伪标签的半监督领域适应,在DEAP、DREAMER和SEED数据集上取得了最先进的结果。
arXiv:2607.00358v1 公告类型:新
摘要:脑电图(EEG)以高时间保真度捕获内源性大脑活动,并为精确的情绪解码提供了巨大潜力。然而,通道冗余和显著的个体间差异仍然是可扩展泛化的主要障碍。为解决这些限制,我们提出了一种名为PRioritized channel Importance with Semi-supervised doMain adaptation(PRISM)的新框架,实现了标签高效的跨被试情绪解码。在通道方面,PRISM通过轻量级专家集成分配可微的、数据依赖的通道权重,放大可靠的电极同时抑制干扰。在领域方面,PRISM利用未标记数据,通过置信度过滤的伪标签驱动一致性正则化和领域对齐,减轻被试特异性异质性。大量实验表明,PRISM在DEAP、DREAMER和SEED数据集上超越了最先进的方法,在标注有限的情况下实现了稳健的跨被试泛化。
查看缓存全文
缓存时间: 2026/07/02 05:37
# PRISM:基于优先通道重要性与半监督领域适应的跨被试EEG情感识别 来源:https://arxiv.org/html/2607.00358 Xin Zhou, Xiang Zhang, Hao Deng, and Lijun Yin∗,Fellow, IEEE Xin Zhou, Xiang Zhang and Lijun Yin 隶属于宾汉姆顿大学(纽约州立大学)T. J. Watson工程与应用科学学院计算系,地址:美国纽约州宾汉姆顿市,邮编13902(电子邮件:[email protected]; [email protected]; [email protected])。Hao Deng 隶属于哈佛大学麻省总医院,地址:美国马萨诸塞州波士顿市,邮编02114(电子邮件:[email protected])。∗通讯作者。 ###### 摘要 脑电图(EEG)能以高时间保真度捕捉内源性大脑活动,在精确情感解码方面具有巨大潜力。然而,通道冗余和显著的被试间差异仍然是实现可扩展泛化的关键障碍。为解决这些局限性,我们提出了一种名为优先通道重要性与半监督领域适应(PRISM)的新框架,能够实现标签高效性的跨被试情感解码。在通道方面,PRISM通过轻量级专家集成网络为每个通道分配可微分、数据依赖的权重,从而增强可靠电极并抑制干扰通道。在领域方面,PRISM利用未标记数据,通过置信度过滤的伪标签驱动一致性正则化和领域对齐,缓解被试特异性异质性。大量实验表明,PRISM在DEAP、DREAMER和SEED数据集上均超越了现有最先进方法,在标注有限的情况下实现了稳健的跨被试泛化。 ## I 引言 EEG是一种无创技术,具有高时间分辨率,能够捕捉与情感相关的神经动态,因此被视为理想的情感解码信号[30 (https://arxiv.org/html/2607.00358#bib.bib1),20 (https://arxiv.org/html/2607.00358#bib.bib2)]。神经心理学研究表明,情感处理在大脑皮层上表现出区域选择性,其中额叶系统尤为敏感[9 (https://arxiv.org/html/2607.00358#bib.bib3)]。在实践中,部分电极对情感表征贡献甚微,且更容易受到眼电和肌电伪迹的干扰[14 (https://arxiv.org/html/2607.00358#bib.bib4),23 (https://arxiv.org/html/2607.00358#bib.bib5)],这导致全通道EEG存在显著的空间非均匀性。不加区分地使用所有通道会稀释判别性信息、降低识别精度,同时还会增加维度冗余和计算成本。因此,识别并强调对情感解码更具信息量的电极,同时抑制冗余和噪声源,是提升基于EEG的情感表征质量与可部署性的关键路径。 已有研究探索了使用少量通道进行情感识别,发现仅使用有限数量的情感相关电极作为输入并不会显著降低精度[44 (https://arxiv.org/html/2607.00358#bib.bib6),54 (https://arxiv.org/html/2607.00358#bib.bib7)]。另一些研究则利用注意力机制[44 (https://arxiv.org/html/2607.00358#bib.bib6),36 (https://arxiv.org/html/2607.00358#bib.bib8)]或图卷积[26 (https://arxiv.org/html/2607.00358#bib.bib9),43 (https://arxiv.org/html/2607.00358#bib.bib10)]为通道分配动态权重。然而,许多现有方法要么未能充分考量不同情感诱发范式下皮层反应的差异,要么依赖于单一的权重配置,限制了其在任务、范式和场景间的适应能力。考虑到诱发条件的异质性和应用约束,支持多种数据自适应更新的权重配置,既具有实际意义,也具有方法论价值。 除了通道冗余,EEG还表现出显著的跨被试异质性,即个体之间在解剖结构、生理状态和心理反应上存在本质差异。因此,不同个体在相同诱发条件下产生的EEG分布可能差异显著,甚至同一被试的EEG分布也会随时间漂移[52 (https://arxiv.org/html/2607.00358#bib.bib11)]。这些分布差异使得源被试与目标被试之间的偏移成为导致跨被试识别性能下降的主要原因之一。特征对齐[56 (https://arxiv.org/html/2607.00358#bib.bib12)]、子领域适应[25 (https://arxiv.org/html/2607.00358#bib.bib13),17 (https://arxiv.org/html/2607.00358#bib.bib14)]以及对抗图对比学习[45 (https://arxiv.org/html/2607.00358#bib.bib15)]等技术在缓解该问题上取得了进展。然而,这些方法通常需要大量标签或高精度的伪标签,并且很少显式地对EEG内部结构(例如通道级差异)进行建模,导致训练对噪声和伪标签漂移敏感。为应对标签稀缺,这些方法常与半监督[52 (https://arxiv.org/html/2607.00358#bib.bib11),45 (https://arxiv.org/html/2607.00358#bib.bib15)]和无监督学习策略[25 (https://arxiv.org/html/2607.00358#bib.bib13),49 (https://arxiv.org/html/2607.00358#bib.bib16),55 (https://arxiv.org/html/2607.00358#bib.bib17)]相结合。然而,它们通常依赖额外的辅助组件(如图神经网络或注意力机制),或者与标准骨干网络缺乏紧密集成,这增加了实际应用中的复杂性,并限制了即插即用式部署。 基于以上讨论,我们可以总结出基于EEG的情感识别面临两大挑战: - • 在不同情感诱发条件下,哪些EEG通道最具信息量?模型如何提升对特定情感有贡献的电极的重要性,同时抑制冗余通道的干扰? - • 如何缓解跨被试异质性,特别是在标签稀缺的目标场景中,使得学习到的表征保持可靠性和泛化性? 为此,我们认为有必要优先考虑通道重要性,并迫切需要一种端到端框架,在标签稀缺的情况下,同时增强模型泛化能力和执行领域对齐。受混合专家(MoE)[11 (https://arxiv.org/html/2607.00358#bib.bib18)]和半监督领域适应[3 (https://arxiv.org/html/2607.00358#bib.bib19)]进展的启发,我们采用多个并行运行的轻量级专家子网络,并根据输入和任务条件选择一部分专家,从而实例化多种权重配置,这自然适用于EEG通道优先级排序。此外,半监督领域适应整合了监督学习、无监督一致性正则化和领域对齐约束,直接解决了有限标签下的跨被试问题。 因此,我们提出了PRISM(优先通道重要性与半监督领域适应),该框架能够在不同的EEG情感识别任务中,为每个通道分配数据依赖的软权重,并在有限标签下进行跨被试半监督领域适应。具体而言,PRISM首先使用骨干网络编码时空EEG特征,然后通过一个轻量级专家集成网络学习可微分的自适应通道权重,以增强可靠电极并抑制干扰通道。同时,对未标记目标数据的置信度过滤伪标签支持一致性正则化和领域对齐,从而缓解异质性并提升泛化能力。该框架是模型无关的,兼容主流时序架构,能够轻松适应不同标签密度下的情感识别。 本文的主要贡献总结如下: - • 我们提出了PRISM,通过轻量级专家集成网络实现通道优先级排序,产生可学习的多权重配置,以适应多样化的情感诱发范式和任务设置。 - • 在标签稀缺的情况下,我们开发并验证了一种专门针对EEG的半监督领域适应策略,显著提升了跨被试鲁棒性和标签效率。 - • 在DEAP、DREAMER和SEED等公开基准上,PRISM在有限标注下一致优于最先进方法,并且可以即插即用地集成到现有模型中,进一步提升性能。 本文剩余部分的结构如下。第二部分(https://arxiv.org/html/2607.00358#S2)回顾了通道选择、混合专家和半监督学习的相关工作。第三部分(https://arxiv.org/html/2607.00358#S3)介绍了PRISM的流程。第四部分(https://arxiv.org/html/2607.00358#S4)详细说明实验过程与结果。第五部分(https://arxiv.org/html/2607.00358#S5)提供更深入的讨论。最后,第六部分(https://arxiv.org/html/2607.00358#S6)对研究进行总结。 ## II 相关工作 ### II-A 通道选择 大脑在不同认知活动时会激活不同脑区[10 (https://arxiv.org/html/2607.00358#bib.bib20)]。越来越多的证据表明,额叶和颞叶与情感相关[44 (https://arxiv.org/html/2607.00358#bib.bib6),36 (https://arxiv.org/html/2607.00358#bib.bib8),43 (https://arxiv.org/html/2607.00358#bib.bib10),13 (https://arxiv.org/html/2607.00358#bib.bib21)],其中额叶区域的影响尤为显著[10 (https://arxiv.org/html/2607.00358#bib.bib20),16 (https://arxiv.org/html/2607.00358#bib.bib22)]。负性和中性情感在前额叶皮层显示更强的激活,而积极情感在左半球更为活跃[23 (https://arxiv.org/html/2607.00358#bib.bib5)]。Tao等人[36 (https://arxiv.org/html/2607.00358#bib.bib8)]引入注意力机制自适应分配权重,并观察到额叶、颞叶和顶叶区域的电极权重较高。Lin等人[26 (https://arxiv.org/html/2607.00358#bib.bib9)]利用图结构上的注意力分布来调节所选通道的比例。类似地,Yang等人[43 (https://arxiv.org/html/2607.00358#bib.bib10)]采用通道权重网络来估计通道重要性参数。选择对情感识别贡献更大的通道不会降低精度,反而能提高模型的可解释性[44 (https://arxiv.org/html/2607.00358#bib.bib6)]。 ### II-B 混合专家 MoE[11 (https://arxiv.org/html/2607.00358#bib.bib18)]实例化多个子模型,并使用门控网络或路由器为每个输入动态选择一小部分专家。它已被广泛应用于自然语言处理、计算机视觉和时间序列预测。例如,Switch Transformers[12 (https://arxiv.org/html/2607.00358#bib.bib23)]和GShard[22 (https://arxiv.org/html/2607.00358#bib.bib24)]在维持大量参数的同时控制计算量,从而提升效率。V-MoE[32 (https://arxiv.org/html/2607.00358#bib.bib25)]将容量优先路由到目标区域并降低背景的权重。MMVAE[34 (https://arxiv.org/html/2607.00358#bib.bib26)]结合MoE融合来自不同模态的潜在表征。Pathformer[6 (https://arxiv.org/html/2607.00358#bib.bib27)]、Time-MoE[33 (https://arxiv.org/html/2607.00358#bib.bib28)]、InterpGN[40 (https://arxiv.org/html/2607.00358#bib.bib29)]和SoftShape[29 (https://arxiv.org/html/2607.00358#bib.bib30)]等方法为不同尺度分配不同的专家,提高了模型的稳定性和可解释性。 ### II-C 半监督学习 半监督学习仅需少量标签就能在目标域实现强大的泛化能力。早期工作MixMatch[2 (https://arxiv.org/html/2607.00358#bib.bib31)]结合了标签猜测、熵最小化、一致性正则化和MixUp[48 (https://arxiv.org/html/2607.00358#bib.bib32)],形成了一个高效的半监督框架。FixMatch[35 (https://arxiv.org/html/2607.00358#bib.bib33)]使用高置信度伪标签,并强制弱增强和强增强之间的一致性,取得了强劲性能。AdaMatch[3 (https://arxiv.org/html/2607.00358#bib.bib19)]提供了一个统一的训练框架,涵盖半监督学习、无监督领域适应和半监督领域适应。FlexMatch[47 (https://arxiv.org/html/2607.00358#bib.bib34)]和FreeMatch[39 (https://arxiv.org/html/2607.00358#bib.bib35)]采用更灵活的阈值选择策略以适应不同类别。SoftMatch[5 (https://arxiv.org/html/2607.00358#bib.bib36)]用高斯加权替代硬阈值。AllMatch[42 (https://arxiv.org/html/2607.00358#bib.bib37)]通过类别自适应阈值和类别一致性约束充分利用未标记数据。类似地,FullMatch[7 (https://arxiv.org/html/2607.00358#bib.bib38)]整合了FixMatch和FlexMatch,也能最大化利用所有未标记数据。 ## III 方法 参见图注图1:优先通道重要性模块概览。中间列从下到上依次为:季节性挖掘(SM)、通道级状态空间(CSS)和专家路由器(ER)。左侧面板展示了Mamba块的示意图。右侧面板从下到上展示了多尺度特征融合模块和逆嵌入模块。(SSM:状态空间模型,FFT:快速傅里叶变换。)在本节中,我们将介绍PRISM,它由两个模块组成:(i) 优先通道重要性模块,和 (ii) 半监督领域适应模块。如图1 (https://arxiv.org/html/2607.00358#S3.F1) 所示,优先通道重要性模块分三个阶段实现,即季节性挖掘(SM)、通道级状态空间(CSS)和专家路由器(ER)。图2 (https://arxiv.org/html/2607.00358#S3.F2) 描述了专门针对跨被试EEG情感识别的半监督领域适应模块,它集成了弱增强和强增强、置信度阈值化伪标签、一致性正则化、熵最小化以及用于领域适应的特征分布对齐项。 ### III-A 优先通道重要性 #### III-A1 季节性挖掘 季节性或特定尺度的时序线索对于序列建模具有信息量[41 (https://arxiv.org/html/2607.00358#bib.bib41),53 (https://arxiv.org/html/2607.00358#bib.bib42)]。如图1 (https://arxiv.org/html/2607.00358#S3.F1) 所示,我们通过三个步骤从EEG片段x∈RL×Dx\\in\\mathbb\{R\}^\{L\\times D\}(长度LL,通道DD)中提取多尺度时序表征:频率引导的尺度选择、分块多尺度感知和加权融合。 ##### 频率引导的尺度选择。 令F\\mathcal\{F\}表示快速傅里叶变换,A\\mathcal\{A\}表示幅度算子。我们计算频谱A=A\(F\(x\)\)A=\\mathcal\{A\}\(\\mathcal\{F\}\(x\)\),选择前K个最显著的频率{fi}i=1K=TopK\(A\)\\\{f\_\{i\}\\\}\_\{i=1\}^\{K\}=\\mathrm\{TopK\}\(A\),并将其转换为周期pi=⌊Lfi⌋。p\_\{i\}=\\Big\\lfloor\\frac\{L\}\{f\_\{i\}\}\\Big\\rfloor。
相似文章
PRISM:面向共情口语对话的韵律集成多智能体推理框架
PRISM 是一个多智能体框架,通过将语音感知、响应生成和语音合成解耦,并结合韵律线索与大语言模型推理及外部知识工具,以提升共情口语对话的质量。
EmoS:面向细粒度流式情感理解的高保真多模态基准
本文介绍了 EmoS,这是一个专为细粒度流式情感理解设计的高保真多模态基准,旨在解决现有数据集中存在的生态效度不足和标注可靠性低的问题。
基于生理信号的多模态情感识别的深度时间建模与集成融合
本文评估了深度学习模型(LSTM、TCN、Transformer)在WESAD数据集上基于生理信号的多模态情感识别表现,结果表明集成方法达到了98.91%的准确率。
PRISM:用于顺序决策的感知与推理交织方法
本文介绍了 PRISM,这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架,旨在提升具身 AI 任务中的顺序决策能力。
Brain-CLIPLM:基于脑电压缩语义表征的语言重建解码
研究人员提出Brain-CLIPLM,一个两阶段脑电到文本解码框架,利用对比学习提取语义锚点,并结合基于检索的大语言模型(LLM)及思维链(CoT)推理进行句子重建。该方法在测试中达到67.55%的Top-5句子检索准确率和85.00%的Top-25准确率,显著优于直接解码基线模型,跨被试评估证实了其良好的泛化能力。研究结果表明,脑电到文本解码应聚焦于恢复压缩后的语义内容,而非完整句子重建。