通过遗忘实现公平的认知障碍检测

arXiv cs.LG 2026/06/18 04:00 论文

cognitive-impairment bias-mitigation unlearning multimodal speech-analysis fairness

摘要

提出了一种多模态框架，用于从语音中公平地检测轻度认知障碍，通过梯度反转实现遗忘，以减少人口统计学偏差并提升各子群体的性能。

arXiv:2606.18571v1 公告类型：新摘要：轻度认知障碍是一种医学状况，其特征是记忆、语言或思维能力显著下降。从自发语音中检测MCI对于大规模筛查具有前景。然而，学习模型常常利用与标签相关的人口统计学线索，导致各子群体之间存在较大的性能差距。我们提出了一种多模态框架，结合了(i) 模态间（语音、文本和图像）的跨模型融合，以及(ii) 使用梯度反转的遗忘方法，该方法阻止共享嵌入编码与任务无关的人口统计属性。在多语言基准TAUKADIAL和PREPARE上的评估表明，我们的方法在MCI分类上优于最先进的多语言和多模态基线，同时显著减少了患者子群体（性别和语言）之间的性能差距。我们进一步分析了跨数据集的迁移，表明人口统计遗忘有助于学习更鲁棒的MCI检测表示。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:44

# 通过遗忘学习实现公平的轻度认知障碍检测
来源：https://arxiv.org/html/2606.18571
Nguyen Cheng Amiri

###### 摘要

轻度认知障碍（Mild Cognitive Impairment, MCI）是一种以记忆力、语言或思维能力显著下降为特征的医学状况。基于自发性语音的MCI检测为大规模筛查提供了有前景的方案。然而，学习模型常常利用与标签相关的统计人口学线索，导致不同亚组之间的性能差距较大。我们提出了一种多模态框架，该框架结合了 (i) 模态间的跨模型融合（语音、文本和图像），以及 (ii) 使用梯度反转进行遗忘学习，以阻止共享嵌入编码与任务无关的人口统计属性。在 multilingual benchmarks TAUKADIAL 和 PREPARE 上的评估表明，我们的方法在MCI分类上优于最先进的多语言和多模态基线，同时显著缩小了患者亚组（性别和语言）之间的性能差距。我们进一步分析了跨数据集的迁移性，表明人口统计遗忘学习有助于学习更鲁棒的MCI检测表示。我们的代码在此处 (https://github.com/CLU-UML/Fair-MCI-Detection)。

###### 关键词:

轻度认知障碍，偏差缓解，遗忘学习

## 1 引言

基于语音的评估是筛查认知障碍的一种有前景方法，因为自发性语音反映了词汇选择与多样性、句法复杂性、不流畅和韵律方面的认知与语言变化[1 (https://arxiv.org/html/2606.18571#bib.bib1),2 (https://arxiv.org/html/2606.18571#bib.bib2)]。然而，现实世界的临床语音数据集通常规模较小、异质性高且人口统计学分布不均衡，基于这些数据训练的机器学习模型可能学习虚假的人口统计相关性而非真正的认知标记。具体而言，已知痴呆症语音基准容易受到性别[3 (https://arxiv.org/html/2606.18571#bib.bib3),4 (https://arxiv.org/html/2606.18571#bib.bib4),5 (https://arxiv.org/html/2606.18571#bib.bib5)]等人口统计因素的混淆影响。因此，同一模型可能对某个人口统计亚组表现良好，而对另一个亚组性能显著下降，引发对可靠性和公平部署的担忧。

现有的偏差缓解方法可以识别已知[6 (https://arxiv.org/html/2606.18571#bib.bib6),7 (https://arxiv.org/html/2606.18571#bib.bib7),8 (https://arxiv.org/html/2606.18571#bib.bib8)]和先前未识别[9 (https://arxiv.org/html/2606.18571#bib.bib9),10 (https://arxiv.org/html/2606.18571#bib.bib10)]的数据集偏差。它们通过重新加权样本[10 (https://arxiv.org/html/2606.18571#bib.bib10),7 (https://arxiv.org/html/2606.18571#bib.bib7)]、学习鲁棒表示[11 (https://arxiv.org/html/2606.18571#bib.bib11),12 (https://arxiv.org/html/2606.18571#bib.bib12)]、识别鲁棒特征交互模式[13 (https://arxiv.org/html/2606.18571#bib.bib13)]、减少偏置模型组件的影响[14 (https://arxiv.org/html/2606.18571#bib.bib14)]以及应用数据扰动[15 (https://arxiv.org/html/2606.18571#bib.bib15)]来缓解偏差。尽管最近有一些工作[3 (https://arxiv.org/html/2606.18571#bib.bib3),5 (https://arxiv.org/html/2606.18571#bib.bib5)]，但公平性和偏差缓解在基于语音的认知评估中仍未得到充分探索，尤其是在多语言和多模态设置中，人口统计线索可能同时出现在声学（例如，音高、共振峰、语速）和文本（例如，词汇、语法、语码转换）中。因此，一个核心挑战是学习能够捕捉认知障碍信号同时不受保护人口统计变量影响的表示。

我们通过提出 FMD 来解决这个问题，这是一个公平的MCI检测框架，建立在两个核心思想上。首先，我们不依赖模态的晚期拼接，而是使用交叉注意力融合来使多模态表示能够交互并对齐；这允许模型强调可能在模态间表达不均的互补认知线索。其次，我们引入了一种遗忘学习方法。一个辅助的人口统计分类器尝试从共享嵌入预测受保护属性，而遗忘学习模块引导编码器去除可能作为主要诊断任务（MCI状态）捷径的人口统计信息。这优先学习任务预测性特征，而非无信息或不相关的信号。我们的目标不是消除具有临床意义的变异，而是减少对人口统计身份作为MCI检测代理的依赖。

我们在两个多语言基准（TAUKADIAL[16 (https://arxiv.org/html/2606.18571#bib.bib16)] 和 PREPARE[17 (https://arxiv.org/html/2606.18571#bib.bib17)]）上评估 FMD，并评估 (i) 整体MCI检测性能，(ii) 跨性别和语言亚组的性能差距，以及 (iii) 在分布偏移下的鲁棒性，通过跨数据集的模型可迁移性量化。实验结果表明，FMD 在两个数据集上提高了平均 F1 分数，同时减少了亚组差异，在 TAUKADIAL（较小，三种模态）上的改进比 PREPARE（较大，两种模态）更大。

本文的贡献在于 FMD：一个公平的MCI检测模型，通过交叉注意力融合语音、文本和图像模态，并包含一个梯度反转组件，以遗忘共享表示中的人口统计偏差。

## 2 相关工作

MCI检测：现有工作已经开发了利用语义特征[18 (https://arxiv.org/html/2606.18571#bib.bib18)]、语言特征[19 (https://arxiv.org/html/2606.18571#bib.bib19),20 (https://arxiv.org/html/2606.18571#bib.bib20)]、训练数据增强[21 (https://arxiv.org/html/2606.18571#bib.bib21),22 (https://arxiv.org/html/2606.18571#bib.bib22)]和提示学习[23 (https://arxiv.org/html/2606.18571#bib.bib23)]从语音信号检测MCI和阿尔茨海默病的模型。[24 (https://arxiv.org/html/2606.18571#bib.bib24)] 综述了LLM在痴呆症护理中的应用，分析了痴呆症患者及其支持者的调查结果，并概述了AI驱动医疗解决方案的优先事项。

参见标题图 1：FMD 的架构。1) 跨模态（CM）融合模块后接前馈网络（FFN）支持比标准拼接更丰富、更细粒度的模态交互与融合。2) 遗忘学习（UL）组件从模型中移除与任务无关的偏差，产生更公平和更鲁棒的性能。这是通过一个辅助的人口统计分类器 f_Demo 实现的，它识别虚假的人口统计特征；f_Demo 的梯度被反转以遗忘这些虚假特征。

语音识别中的偏差：先前的工作[25 (https://arxiv.org/html/2606.18571#bib.bib25),26 (https://arxiv.org/html/2606.18571#bib.bib26),27 (https://arxiv.org/html/2606.18571#bib.bib27),28 (https://arxiv.org/html/2606.18571#bib.bib28)]强调了评估影响语音识别模型的偏差（性别、年龄、口音和其他人口统计信息）的重要性。[29 (https://arxiv.org/html/2606.18571#bib.bib29)] 提出了一种对比学习方法以缓解不同表现不佳亚组中的偏差。[30 (https://arxiv.org/html/2606.18571#bib.bib30)] 提出了数据增强和领域对抗训练方法来缓解针对非母语口音的偏差。[31 (https://arxiv.org/html/2606.18571#bib.bib31)] 提出了多头模型技术和数据增强以缓解儿童语音障碍检测中的说话人偏差。[32 (https://arxiv.org/html/2606.18571#bib.bib32)] 展示了健康评估数据集中混淆偏差指标与目标指标比较的效果。[3 (https://arxiv.org/html/2606.18571#bib.bib3),5 (https://arxiv.org/html/2606.18571#bib.bib5)] 发现MCI检测模型在人口统计亚组之间可能表现出显著偏差。

## 3 方法

FMD 由两个紧密结合的组件组成：1) 一个具有跨模态融合的多模态MCI分类器，用于产生准确的MCI诊断，以及 2) 一个遗忘学习模块，从学习到的表示中移除人口统计信息以缓解偏差。

### 3.1 通过跨模态融合进行多模态MCI检测

我们的架构由单模态编码器后接跨模态（CM）融合模块组成。给定输入波形 x_S、其转录文本 x_T 和相应的图像 x_I（如果有），我们分别使用语音、文本和图像编码器 Enc_S、Enc_T 和 Enc_I 对其进行编码：

z_S = Enc_S(x_S), z_T = Enc_T(x_T), z_I = Enc_I(x_I). (1)

先前的MCI检测系统通常依赖晚期拼接[3 (https://arxiv.org/html/2606.18571#bib.bib3),33 (https://arxiv.org/html/2606.18571#bib.bib33)] 来获得最终表示，这未能充分利用模态间丰富而细粒度的交互和依赖关系。为了弥补这一差距，我们采用交叉注意力层来对齐和提取不同模态之间的交互。具体而言，我们以文本作为对齐锚点执行交叉注意力，以融合 (i) 语言内容与语音中的副语言线索，以及 (ii) 在图像可用时，语言内容与视觉语义。例如：

z = softmax((z_S z_T^T) / sqrt(d_k)) z_T, (2)

其中语音特征 z_S 用作查询 Q，文本特征 z_T 用作键 K 和值 V，d_k 是嵌入维度。最终的MCI预测由下式给出：

L_MCI = E_{(x_S,x_T,x_I,y)} [L_CE(y, f_MCI(z))], (3)

其中 L_CE 是交叉熵损失。

为什么CM融合能帮助？该模块允许一种模态动态地关注另一种模态最相关的特征，并产生上下文感知且细粒度的联合嵌入。具体而言，交叉注意力允许模型将每个文本标记条件化为最相关的声学证据（例如，停顿、韵律），以及如果可用的话，最相关的视觉线索（例如，物体和场景内容）。这对MCI很有意义，因为预测信号通常是局部的且跨模态的：一个标记可能在语言上正确但在声学上费力，或者视觉上命名的失败可能表现为模糊的措辞。因此，与晚期拼接相比，CM融合产生了更具判别性和上下文感知的联合表示。

### 3.2 通过梯度反转遗忘人口统计偏差

MCI检测模型容易受到人口统计偏差的影响，即非因果人口统计信息与标签之间的虚假相关性，尤其是在MCI任务训练数据有限的情况下。这些捷径可能损害泛化能力并加剧患者亚组和数据集之间的性能差异。为了缓解此类偏差，我们明确鼓励共享表示 z 对MCI具有预测性，同时对人口统计信息不具有信息性。

我们引入一个辅助的人口统计分类器 f_Demo，它从 z 预测人口统计属性。为了移除对此类信息的依赖，我们在训练人口统计分类器时反转梯度，这导致从编码器“遗忘”[34 (https://arxiv.org/html/2606.18571#bib.bib34)]人口统计特征：

L_Demo = E_{(x, y_d)} [L_CE(y_d, f_Demo(z))], (4)

其中 y_d 是数据集提供的人口统计标签。

我们使用梯度反转（GR）实现遗忘目标。在前向传播期间，梯度反转充当恒等函数。在反向传播期间，它用系数 λ 反转梯度，从而反转人口统计预测的优化方向。该机制鼓励共享表示去除人口统计信息，同时保持对主要MCI检测任务的预测性。直观地说，编码器学习人口统计分类器 f_Demo 无法可靠推断人口统计属性的表示，从而阻止模型依赖人口统计信号来预测MCI。

形式上，关于共享表示 z 的梯度变为

∂L/∂z = ∂L_MCI/∂z - λ ∂L_Demo/∂z, (5)

其中 L_MCI 是MCI预测的任务损失，L_Demo 是人口统计分类损失。

人口统计对抗器可能在训练早期阶段引入不稳定性，此时任务表示仍在发展中。因此，我们在训练过程中逐渐增加梯度反转的强度以保持稳定性[35 (https://arxiv.org/html/2606.18571#bib.bib35)]。具体而言，λ 根据下式从 0 到 1 进行调度：

λ = 2 / (1 + exp(-γ · p)) - 1, (6)

其中 γ 控制遗忘学习强度增加的速率，并被视为可调超参数，p 表示当前训练步数与总训练步数的比率。这本质上是一种课程学习[36 (https://arxiv.org/html/2606.18571#bib.bib36)]，允许模型首先学习任务相关特征，然后逐步强制实现人口统计不变性。

## 4 实验

### 4.1 数据集

我们在实验中使用以下两个数据集。

- • TAUKADIAL[37 (https://arxiv.org/html/2606.18571#bib.bib37)]：一个包含 387 个样本的数据集，有两个标签：正常受试者（NC）和轻度认知障碍（MCI）患者。
- • PREPARE[17 (https://arxiv.org/html/2606.18571#bib.bib17)]：一个包含 1644 个样本的数据集，有三个标签：NC、MCI 和 ADRD（阿尔茨海默病及相关痴呆症）。

数据统计信息如表1 (https://arxiv.org/html/2606.18571#S4.T1) 所示。

### 4.2 设置

对于 TAUKADIAL，我们遵循[33 (https://arxiv.org/html/2606.18571#bib.bib33)]，使用图像、语音和文本（从语音文件转录）作为输入。对于 PREPARE，我们使用语音和转录文本作为输入，因为未提供图像。遵循先前的工作[3 (https://arxiv.org/html/2606.18571#bib.bib3)]，我们使用 10 折交叉验证并报告测试折上的平均性能。我们使用 Whisper[38 (https://arxiv.org/html/2606.18571#bib.bib38)] 作为语音编码器，multilingual BERT[39 (https://arxiv.org/html/2606.18571#bib.bib39)] 作为文本编码器，以及 SigLIP[40 (https://arxiv.org/html/2606.18571#bib.bib40)] 作为图像编码器。

### 4.3 评估

模型使用分层 10 折交叉验证进行训练和评估。遵循标准的偏差缓解文献[41 (https://arxiv.org/html/2606.18571#bib.bib41),42 (https://arxiv.org/html/2606.18571#bib.bib42),43 (https://arxiv.org/html/2606.18571#bib.bib43)]，我们在整体性能 (↑)、亚组最差组性能 (↑) 以及人口统计组之间的性能差距 (↓) 上评估方法。我们关注两个人口统计属性：(1) 性别（男性和女性），以及 (2) 语言（英语和非英语）。理想情况下，一个公平的 MCI m

通过遗忘实现公平的认知障碍检测

相似文章

基于跨语言迁移学习的多语言语音阿尔茨海默病检测方法

通过将公平性视为对称操作来检测和缓解偏见

基于LLM推理的多视角注意力多示例学习在认知扭曲检测中的应用

利用自定进度课程学习增强多模态对话情感识别中的模态平衡

朝向校准、公平且准确的深度伪造检测

提交意见反馈