MA-DLE：基于记忆增强的语音自动抑郁程度评估

arXiv cs.AI 2026/06/11 04:00 论文

摘要

本文介绍了MA-DLE，一种基于记忆的特征增强方法，用于基于语音的自动抑郁程度评估，在DAIC-WOZ和E-DAIC数据集上达到了最先进的性能。

arXiv:2606.11197v1 公告类型：跨域摘要：基于语音的抑郁程度自动估计对于实现早期检测和及时干预至关重要，尤其是在资源有限的心理健康环境中。近年来，深度学习在情感计算和心理健康评估等多个领域取得了显著成功。现有方法大多依赖基于RNN的架构（如LSTM和GRU）对时间信息进行建模以估计抑郁程度。然而，提取的特征通常仅强调少数相邻语音片段，限制了其捕获长期依赖关系的能力。为克服这一局限，我们引入了一种基于记忆的特征增强方法，用于提升GRU提取特征的表示能力。我们的记忆库并非不加区分地整合历史数据，而是设计为选择性地融入两类成分以减少冗余和不相关性：（1）与当前GRU输出高度相似的历史时间特征，提供互补的上下文信息；（2）基于特征变异性识别出的动态记忆特征，这些特征捕捉了指示抑郁症状的行为和情绪波动。为有效融合记忆增强特征与GRU输出，我们进一步设计了层次化注意力融合（HAF）模块。我们的方法在广泛使用的DAIC-WOZ和E-DAIC数据集上进行了评估，实现了最先进的性能。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:53

# MA-DLE：基于记忆增强的语音自动抑郁程度估计  
来源：https://arxiv.org/html/2606.11197  

王旭志¹，吴欣然¹，赵子平¹，陶建华²，Björn W. Schuller³，⁴  
¹天津师范大学  
²清华大学  
³慕尼黑工业大学  
⁴伦敦帝国理工学院  

王旭志、吴欣然和赵子平：通讯作者单位。国家自然科学基金项目编号 62071330, 61831022, U21B2020, 62471249；教育部人文社会科学基金项目编号 24YJC740076；以及德国研究基金会（DFG）Reinhart Koselleck项目 AUDI0NOMOUS（项目编号 442218748）资助。  

###### 摘要  

基于语音的抑郁程度自动估计对于实现早期检测和及时干预至关重要，尤其是在资源有限的心理健康环境中。近年来，深度学习在情感计算和心理健康评估等多个领域取得了显著成功。大多数现有方法依赖基于RNN的架构（如LSTM和GRU）来对抑郁估计的时间信息进行建模。然而，提取的特征往往只强调少数相邻的语音片段，限制了其捕捉长程依赖的能力。为了克服这一局限，我们提出了一种基于记忆的特征增强方法，以提升GRU提取特征的表示能力。我们的记忆库并非不加区分地融入历史数据，而是有选择性地整合两种类型的组件，以减少冗余和不相关：  
(1) 与当前GRU输出高度相似的历史时间特征，提供补充的上下文信息；  
(2) 基于特征变异性识别的动态记忆特征，捕捉与抑郁症状相关的行为和情绪波动。  
为了有效融合记忆增强特征与GRU输出，我们进一步设计了一个层次注意力融合（HAF）模块。我们的方法在广泛使用的DAIC-WOZ和E-DAIC数据集上进行了评估，取得了最先进的性能。  

## I. 引言  

抑郁症是一种常见的精神障碍，会导致个体长期情绪低落，难以参与日常社交活动，严重时甚至可能导致自杀。世界卫生组织2017年发布的数据显示，全球约有3.5亿人患有抑郁症。此外，预计到2030年，抑郁症将成为第二大死因[39]。传统的抑郁症检测主要依赖健康问卷，严重依赖心理学家的主观判断。这种方法不仅耗时，而且准确性有限，导致许多患者在早期无法得到及时检测和治疗。此外，在偏远和经济欠发达地区，心理专业人才严重短缺，使得许多有抑郁症状的人难以获得及时、专业的诊断和治疗。因此，开发自动化抑郁症监测系统以辅助医生诊断显得尤为迫切。这类自动化系统能够高效处理大量数据，并在短时间内对大规模人群进行初步筛查，显著提升检测效率和覆盖面。  

许多研究者将深度学习应用于抑郁症检测领域，主要使用GRU、LSTM和CNN模型来捕捉语音中的时间变化。然而，这些方法在建模语音序列时存在一定的局限性，因为它们难以有效捕捉时间步之间的长程依赖。如图1所示，我们计算了不同时间段的语音信号与GRU最终输出之间的余弦相似度。结果表明，最终输出主要关注少数相邻的语音片段，缺乏对更长时间跨度语音信息建模的能力。这可能导致关键语音特征提取不完整，从而影响抑郁症检测的准确性。  

受上述发现启发，我们提出了一种基于记忆的方法来捕捉语音片段间的长程依赖。此类长程依赖对于准确的抑郁程度估计至关重要，原因如下：  
1) 抑郁症患者的语音模式通常表现出长程依赖性。例如，语速、语调和停顿的变化可能在较长时期内逐渐演变。  
2) 抑郁症通常以持续的低情绪状态为特征，单个短语音片段无法充分捕捉。  
3) 短语音片段容易受到环境噪声或瞬时情绪波动的干扰。  

将记忆机制应用于抑郁程度预测的一大挑战在于，语音信号包含大量与抑郁无关的信息。如果未经适当筛选就纳入此类不相关信号，可能会污染后续预测。尽管GRU提取的输出特征可能不够充分，但仍包含一定的抑郁判别线索。因此，一方面，关注与当前帧高度相关的历史特征以提供补充信息是有益的；另一方面，即使相关性较低的那些帧也可能包含关键的判别信号，不应完全丢弃。  

基于这些考虑，我们提出了一种记忆增强的自动抑郁程度估计方法，旨在增强GRU特征的表示能力，从而促进该任务。与GRU内部的记忆单元不同，我们提出了一种具有独立参数的外部结构，用于存储数据中对抑郁程度估计有利的各类长期特征。具体来说，我们首先根据余弦相似度选择与GRU输出高度相似的特征，将其视为语义补充。然后，从相对不相似的特征中提取时间变化模式，以识别可能包含抑郁检测信息的线索。最后，我们设计了一个层次注意力融合（HAF）模块，以有效利用GRU输出、相似性检索特征和动态特征中嵌入的互补信息。  

本文的主要贡献如下：  
- 我们提出了一种新颖的基于语音的抑郁程度估计框架。据我们所知，这是首次将记忆库机制引入该任务。  
- 我们提出了一种基于相似性的特征检索方法，用以精简记忆库，并通过动态特征对其进行增强。这些特征专门设计用于捕捉抑郁线索，从而提升模型理解和预测抑郁程度的能力。  
- 我们设计了一个层次注意力融合（HAF）模块，以有效集成记忆库和GRU中的特征。  
- 我们的方法在DAIC-WOZ和E-DAIC数据集上取得了最先进的性能。  

## II. 相关工作  

近年来，随着心理健康问题日益普遍，抑郁症的早期自动检测已成为多模态情感计算中的一个关键研究重点。嵌入在语音、面部表情和文本语言等模态中的情感线索为主观评估提供了新的可能性。以下部分概述相关工作，主要集中在抑郁程度估计，同时也涉及抑郁症检测的某些方面。我们讨论了基于手工特征提取的传统方法和基于深度学习的近期进展[46,74,13,3,64,65,6,61]。  

### II-A 基于手工特征的传统方法  

手工特征提取在早期自动抑郁症检测研究中发挥了重要作用。这些特征基于领域知识设计，用以从不同模态中捕捉相关线索。本部分回顾了基于语音及其他模态的手工特征的具有代表性的研究。  

在语音分析中，手工特征被设计用于捕捉与抑郁症状相关的声学和韵律变化。先前的工作[15]探索了五种手工音频特征在抑郁症检测中的应用，包括频谱特征、倒谱特征、声门特征、韵律特征和嗓音质量特征。这些特征可以描述语音的低频变化、语调、语速、节奏和质量，为自动抑郁症检测提供支持。Shin等人[43]采用手工特征提取方法，从语音信号中提取四种类型特征用于抑郁症检测，包括声门特征、时频特征、共振峰特征和其他物理特征。这些特征在每个语音片段内分别提取，然后在整个片段内求平均值以进行后续分析。  

视觉线索，特别是面部表情和动作，也为抑郁症检测提供了有价值的信息。以往的工作使用局部相位量化（LPQ）[51,50]、局部二值模式三正交平面（LBP-TOP）[5]、中值鲁棒局部二值模式（MRLBP）[12]和稀疏编码[59]等方法提取动态面部特征，以捕捉抑郁症的细微非言语指标。尽管手工特征已被证明对抑郁症检测和严重程度估计有效，但它们高度依赖专家设计，可能忽略细微的抑郁线索。此外，它们往往在不同个体之间缺乏鲁棒性，并且难以捕捉对准确抑郁评估至关重要的时间动态。  

### II-B 基于深度神经网络的数据驱动方法  

近年来，随着深度学习的快速发展，越来越多的研究聚焦于使用卷积神经网络（CNN）、循环神经网络（RNN）和Transformer等架构进行抑郁症预测。这些方法能够从原始多模态数据（如语音、文本和视频）中自动进行特征学习，并在建模与抑郁症状相关的空间和时间模式方面表现出了良好的性能。这些方法为传统手工特征技术提供了强大而灵活的替代方案[68,19,27,26,9,76,18,45,20,54,53,57,56,55,22,60]。  

一些先前的工作已经探索了基于语音的抑郁症预测。Han等人[11]提出了STFN，使用VQWTNet进行特征映射，使用堆叠的门控残差块获取多尺度信息。Chen等人[2]提出了TTFNet，将对数梅尔频谱图及其导数编码为四元数，提取频率和时间特征，通过XConformer模块进行融合，并使用GradNorm平衡训练。Zhang等人[71]提出了DEPA，一种用于抑郁症检测的自监督音频嵌入，通过在域内（DAIC, MDD）和域外（Switchboard, Alzheimer’s）数据集上使用编码器-解码器网络提取。  

除了单模态方法外，许多研究还聚焦于多模态融合策略，以从不同数据源中捕捉互补信息[27,76,20]。Guramritpal等人[38]引入了DepressNet，一种采用层次注意力机制进行抑郁症检测的多模态框架。他们的方法融合了来自音频、视频和文本模态的多尺度时间特征，利用双向LSTM网络和注意力机制实现有效的特征融合。Marriwala等人[23]开发了一种混合深度学习模型用于抑郁症检测，整合了文本和音频特征。该模型结合了文本CNN、音频CNN和混合LSTM/Bi-LSTM架构，用于鲁棒的特征提取和分类。Zhang等人[70]提出了DepITCM，使用ITCM编码器集成音视频特征，融合时间-通道-空间信息，并采用多任务学习。  

与现有工作不同，我们的方法是首次将记忆机制引入抑郁程度估计，旨在解决GRU/LSTM模型中常见的遗忘问题。具体来说，我们提出通过基于相似性的特征检索和动态特征增强相结合的方式来增强记忆特征。  

### II-C 记忆增强网络  

现有的记忆增强循环神经网络（RNN）大致可分为两类。第一类是基于内部状态的模型，如LSTM和GRU，它们利用隐藏状态和门控机制在序列建模过程中保留短期和部分长期信息。据我们所知，现有的大多数方法[11,2,71,38,23,70]都是基于此类内部记忆。第二类方法引入外部记忆结构，允许模型显式地读写记忆槽，从而增强长期依赖建模能力。我们的工作属于第二类。

MA-DLE：基于记忆增强的语音自动抑郁程度评估

相似文章

基于AI心理健康对话的被动抑郁严重程度评估的LLMs微调

Dep-LLM：基于证据引导的结构化多因素与可靠LLM推理的无需训练抑郁症诊断

@dair_ai: // 记忆即模型 // 该论文为任何LLM增加一个单独训练的记忆模型，用于存储、检索和整合…

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

大型语言模型能否模仿人类语音进行临床评估？基于LLM的数据增强方法用于认知评分预测

提交意见反馈