基于生理信号的多模态情感识别的深度时间建模与集成融合

arXiv cs.CL 2026/06/16 04:00 论文

摘要

本文评估了深度学习模型（LSTM、TCN、Transformer）在WESAD数据集上基于生理信号的多模态情感识别表现，结果表明集成方法达到了98.91%的准确率。

arXiv:2606.15026v1 公告类型：新摘要：生理压力和情感识别对于健康监测和情感计算至关重要。本文对深度学习模型（如长短期记忆网络（LSTM）、时间卷积网络（TCN）和Transformer）在WESAD数据集上进行了全面评估，利用手腕和胸部传感器信号进行多模态情感识别。我们通过训练仅使用手腕信号和仅使用胸部信号的模型，进行消融研究以评估每种模态的单独贡献。此外，我们实现了一种晚期融合集成策略，该策略结合了在接受多模态输入训练的所有三种架构的预测。我们还通过在将手腕和胸部信号输入每个模型之前将其拼接，在传感器层面进行早期融合。我们的结果表明，Transformer模型在多模态设置中持续获得最高准确率，而TCN模型在仅使用手腕信号的配置中表现最佳。集成方法取得了最高的总体准确率（98.91 ± 0.13%）和宏F1分数（98.56 ± 0.17%）。这些发现证明了传感器融合和基于集成的融合在开发鲁棒的生理情感识别系统中的有效性。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:44

# 基于深度时序建模与集成融合的多模态生理信号情感识别
来源：https://arxiv.org/html/2606.15026
###### 摘要

生理压力与情感识别对于健康监测和情感计算具有重要意义。本研究利用WESAD数据集，全面评估了长短期记忆网络(LSTM)、时序卷积网络(TCN)和Transformer等深度学习模型在多模态情感识别中的表现，数据来源于腕部和胸部传感器信号。我们通过仅使用腕部输入和仅使用胸部输入训练模型，进行消融实验以评估每种模态的独立贡献。此外，我们实现了一种晚期融合集成策略，结合了基于多模态输入训练的所有三种架构的预测。我们还在传感器层面采用早期融合，即在将腕部和胸部信号输入每个模型之前进行拼接。结果显示，Transformer模型在多模态设置下始终获得最高准确率，而TCN模型在仅腕部配置下表现最佳。集成方法获得了最高的整体准确率（98.91±0.13%）和宏F1分数（98.56±0.17%）。这些发现证明了传感器融合和基于集成的融合在开发鲁棒的生理情感识别系统中的有效性。

注：附录中包含补充分析的扩展版本。

生理信号处理，多模态情感识别，深度学习，LSTM，TCN，Transformer，传感器融合，可穿戴计算

††版权声明：cc
††会议：第17届ACM国际生物信息学、计算生物学和健康信息学会议；2026年6月30日至7月3日；意大利伦德(CS)
††ccs：计算方法 神经网络
††ccs：计算方法 集成方法
††ccs：应用计算 健康信息学

## 1. 引言

从生理信号中检测和分类人类情感状态的能力在心理健康监测、可穿戴计算、人机交互和情感计算等领域日益重要(Calvo and D'Mello, 2010 (https://arxiv.org/html/2606.15026#bib.bib2))。压力是一个日益严重的公共健康问题，与慢性疾病、生活质量下降和生产力降低相关(Schneiderman et al., 2005 (https://arxiv.org/html/2606.15026#bib.bib3))。准确、实时地检测压力和情感状态可以为及时干预和个性化健康解决方案铺平道路(Healey and Picard, 2005 (https://arxiv.org/html/2606.15026#bib.bib4))。传统的情感检测方法主要依赖于自我报告或访谈，这些方法具有主观性，且不适用于连续监测(Schmidt et al., 2019 (https://arxiv.org/html/2606.15026#bib.bib5); Sheikhet al., 2021 (https://arxiv.org/html/2606.15026#bib.bib6))。可穿戴传感器的最新进展使得收集丰富的生理信号成为可能，例如皮肤电活动(EDA)、呼吸、体温、心率和加速度计数据(Schmidt et al., 2018 (https://arxiv.org/html/2606.15026#bib.bib7))。这些信号使得利用数据驱动模型实时推断情感状态成为可能(Rissler et al., 2018 (https://arxiv.org/html/2606.15026#bib.bib8); Larradet et al., 2020 (https://arxiv.org/html/2606.15026#bib.bib9))。深度学习模型在建模时间序列数据方面尤其有效。诸如LSTM(Hochreiter and Schmidhuber, 1997 (https://arxiv.org/html/2606.15026#bib.bib10))、TCN(Lea et al., 2017 (https://arxiv.org/html/2606.15026#bib.bib1); Bai et al., 2018 (https://arxiv.org/html/2606.15026#bib.bib15))和Transformer(Vaswani et al., 2017 (https://arxiv.org/html/2606.15026#bib.bib11))等架构特别适合学习多模态生理数据中的复杂时间依赖性。然而，有效利用不同的传感器模态、理解它们的相对贡献以及优化它们的融合，仍然是可穿戴情感识别中待解决的挑战(Kulvicius et al., 2025 (https://arxiv.org/html/2606.15026#bib.bib12); Li et al., 2024 (https://arxiv.org/html/2606.15026#bib.bib13))。

本工作的目标是系统评估时序深度学习架构（LSTM、TCN、Transformer）在单模态、多模态和集成融合设置下的表现，以识别用于生理情感识别的鲁棒且可泛化的方法。我们在WESAD数据集上对这些架构进行基准测试，该数据集是可穿戴压力和情感检测的多模态基准。通过使用仅腕部和仅胸部模态进行广泛的消融研究，以了解它们的独立性能以及每个模型如何适应单模态输入。最后，我们提出了一种集成融合方法，该方法整合了所有三个模型的预测，以提高分类的鲁棒性和准确性。

我们的发现为每种模型和模态配置的有效性提供了实践见解，为基于可穿戴传感器数据开发高效、可靠且可扩展的情感识别系统提供了指导。据我们所知，此前尚无研究在WESAD数据集上采用留一法交叉验证(LOSO-CV)协议，对LSTM、TCN和Transformer架构在单模态、多模态和集成设置下进行统一且受控的比较(Schmidt et al., 2018 (https://arxiv.org/html/2606.15026#bib.bib7))。现有工作通常孤立地研究单一架构、单一传感器位置或单一融合策略。我们的贡献在于建立一个系统且架构无关的基准测试框架，阐明何时以及为何特定的时序模型或传感器模态具有优势，从而有效地分离架构选择、传感器模态和融合设计对情感识别性能的影响。

## 2. 动机

压力和情感障碍是全球疾病负担的主要贡献者之一，影响着各类人群的心理和生理健康(Calvo and D'Mello, 2010 (https://arxiv.org/html/2606.15026#bib.bib2); Schneiderman et al., 2005 (https://arxiv.org/html/2606.15026#bib.bib3))。早期准确地检测情感状态（如压力和愉悦）对于预防倦怠、提高生产力以及在临床和工作场所环境中实现及时干预至关重要(Schneiderman et al., 2005 (https://arxiv.org/html/2606.15026#bib.bib3); Sonnentag and Fritz, 2015 (https://arxiv.org/html/2606.15026#bib.bib16))。可穿戴设备实现了对生理信号的连续非侵入式监测。嵌入智能手表、胸带和健身追踪器中的多模态传感器日益普及，这要求智能系统能够将这些信号解释为有意义的情绪标签(Healey and Picard, 2005 (https://arxiv.org/html/2606.15026#bib.bib4); Schmidt et al., 2019 (https://arxiv.org/html/2606.15026#bib.bib5))。然而，开发此类系统面临建模时间依赖性、处理异质信号模态以及确保跨用户和上下文的泛化性等挑战(Schmidt et al., 2018 (https://arxiv.org/html/2606.15026#bib.bib7))。先前的研究已将LSTM(Rostami et al., 2024 (https://arxiv.org/html/2606.15026#bib.bib19); Malviya et al., 2023 (https://arxiv.org/html/2606.15026#bib.bib20); Zitouni et al., 2022 (https://arxiv.org/html/2606.15026#bib.bib21))、TCN(Ding et al., 2024 (https://arxiv.org/html/2606.15026#bib.bib25); Ingolfsson et al., 2021 (https://arxiv.org/html/2606.15026#bib.bib18); Alghoul et al., 2025 (https://arxiv.org/html/2606.15026#bib.bib26))和Transformer(Vaswani et al., 2017 (https://arxiv.org/html/2606.15026#bib.bib11); Li and Zhang, 2025 (https://arxiv.org/html/2606.15026#bib.bib22); Wu et al., 2023 (https://arxiv.org/html/2606.15026#bib.bib23); Vazquez-Rodriguez et al., 2022 (https://arxiv.org/html/2606.15026#bib.bib24))应用于生理情感识别，但很少有研究在受控一致的条件下系统地比较这些架构。最近Liao等人(Liao et al., 2025 (https://arxiv.org/html/2606.15026#bib.bib31))和Choi(Choi, 2025 (https://arxiv.org/html/2606.15026#bib.bib32))的工作探索了集成和融合策略，但侧重于特定的模型设计，而不是统一的跨架构评估。我们采用WESAD(Schmidt et al., 2018 (https://arxiv.org/html/2606.15026#bib.bib7))作为基准，因为它能够在一致的LOSO-CV协议下与先前工作进行直接且可重复的比较。

## 3. 数据集与方法

我们采取了一种结合先进时序深度学习架构与单模态及多模态数据视角的策略，以开发一个利用生理信号进行情感识别的鲁棒系统。我们的流程包含三个主要阶段：(1) 数据准备与分割，(2) 架构设计及基于消融的评估，以及 (3) 多模态集成融合。

### 3.1. 数据集描述

我们使用公开可用的WESAD数据集(Schmidt et al., 2018 (https://arxiv.org/html/2606.15026#bib.bib7))，这是一个广泛采用的用于可穿戴压力和情感识别的生理基准数据集。该数据集包含在受控实验条件下从15名参与者（12名男性，3名女性）收集的多模态生理记录，这些条件旨在诱导基线状态、压力和愉悦状态。生理信号通过两种可穿戴设备采集：Empatica E4腕带和RespiBAN胸部传感器。腕部模态包括EDA、血容量脉搏(BVP)、体温(TEMP)和加速度计(ACC)信号，而胸部模态包括呼吸(RES)、心电图(ECG)和ACC信号。表1 (https://arxiv.org/html/2606.15026#S3.T1) 总结了生理信号及其相应设备。每位参与者经历三种情感条件：基线（中性状态）、压力（通过特里尔社会压力测试诱导）和愉悦（通过视频刺激引发）。这些条件作为监督学习的地面真值标签，任务是将每个时间段分类为三种情感状态之一。为了评估跨个体的泛化能力，我们采用留一法交叉验证(LOSO-CV)协议，即使用除一名参与者外的所有数据训练模型，并在该留出的参与者上测试。对所有参与者重复此过程以确保受试者独立的评估。完整数据集包含超过530万个跨所有模态的样本。由于数据集在三种情感状态之间存在适度的类别不平衡，我们在训练期间采用分层批处理，并报告按类别的性能指标，以确保公平可靠的评估。

表1. WESAD数据集中来自腕部（Empatica E4）和胸部（RespiBAN）设备的生理信号。
| 设备 | 信号 | 采样率 |
|------|------|--------|
| Empatica E4（腕部） | EDA, BVP, TEMP, ACC | 4–64 Hz |
| RespiBAN（胸部） | RES, ECG, ACC | 700 Hz |

### 3.2. 数据准备

为了准备数据，我们将所有信号重采样至公共速率4 Hz，在分割之前将腕部信号（EDA、TEMP、ACC、BVP）和胸部信号（RES、ECG、ACC）在时间上对齐到一致的时间分辨率。这种重采样使模型聚焦于与情感状态相关的低频时间动态，这是情感计算研究中常见的方法(Tanwar et al., 2024 (https://arxiv.org/html/2606.15026#bib.bib33))。

然后将连续信号分割成非重叠的窗口，每个窗口包含10个时间步长，其中每个时间步长对应一个在4 Hz下预处理过的多模态样本。此窗口长度在情感状态分类的时间分辨率和计算效率之间取得平衡。关于重采样率对模型性能影响的敏感性分析在补充材料中提供。分类标签被进行独热编码，并在LOSO-CV折内应用分层抽样，以确保训练期间的类别平衡和可重复性。窗口分割和归一化在每个LOSO折内独立进行，避免训练和测试受试者之间的信息泄露。为确保跨架构和模态配置的公平比较，所有模型使用相同的窗口长度、归一化过程和分割策略，从而使性能差异反映架构设计而非预处理选择。

### 3.3. 模型架构

我们采用三种在时间序列学习中以有效性著称的模型架构。每种模型在单模态和多模态设置下进行训练。

LSTM。这类网络是一种循环神经网络(RNN)，通过记忆单元和门控机制设计用于建模序列中的长程时间依赖性(Hochreiter and Schmidhuber, 1997 (https://arxiv.org/html/2606.15026#bib.bib10))。它们在生理信号建模中表现出了强大的性能，特别是在情绪和压力识别方面。LSTM非常适合捕捉情感状态（包括压力发作和放松期）特有的时间连续性和渐变特征。我们实现了一个两层双向LSTM，后接一个带有dropout正则化的全连接输出层，以减少过拟合。双向结构使模型能够利用过去和未来的上下文，增强其学习生理信号中复杂时间模式的能力。尽管增加了深度，该模型仍然相对轻量，使其适用于可穿戴应用。

TCN。这类模型是完全卷积架构，使用扩张因果卷积进行序列建模，使模型能够高效捕捉长程时间依赖性(Lea et al., 2017 (https://arxiv.org/html/2606.15026#bib.bib1); Bai et al., 2018 (https://arxiv.org/html/2606.15026#bib.bib15))。与LSTM不同，TCN支持时间步长上的并行处理，从而实现更快的训练和更好的稳定性。它们捕捉多尺度时间特征的能力使其特别适合建模不同持续时间的生理信号。我们实现了一堆一维卷积层，其扩张率逐步增加，并结合了残差连接和批归一化，以改善训练稳定性并增强泛化能力。

Transformer。Transformer依赖自注意力机制而非循环或卷积，使其能够在不假设局部结构的情况下建模任意时间步长上的依赖性(Vaswani et al., 2017 (https://arxiv.org/html/2606.15026#bib.bib11))。Transformer能够识别显著性信号模式，无论其位置如何。在我们的实现中，我们使用一个紧凑的编码器，包含三层多头自注意力、可学习的位置嵌入和dropout正则化。模型最后通过时间维度的全局平均池化聚合序列级表示，然后接一个softmax分类层。这种架构特别适合多模态情感识别，因为其自注意力机制可以捕捉异步信号流之间的全局依赖关系，并动态聚焦于信息量最大的时间片段，这在融合异质性生物信号时是至关重要的能力。

融合策略。我们采用两种互补的融合策略。首先，对于多模态输入级融合（早期融合），我们在将腕部和胸部导出的特征输入模型之前，沿着通道维度进行拼接。

基于生理信号的多模态情感识别的深度时间建模与集成融合

相似文章

EMO-BOOST：情绪增强的视听特征提升深度伪造检测的泛化能力

EmoS：面向细粒度流式情感理解的高保真多模态基准

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

@jonxuxu: 我们成功从脑电活动中预测情绪，性能比之前最先进的方法提升超过两倍。Allj…

评估主动式对话智能体中的多模态情绪识别：一项用户研究

提交意见反馈