基于跨语言迁移学习的多语言语音阿尔茨海默病检测方法

arXiv cs.CL 论文

摘要

本文提出了一种跨语言迁移学习方法,用于从语音中检测阿尔茨海默病,覆盖多种语言,实现了82%的F1分数,并支持实时筛查应用。

arXiv:2606.05545v1 Announce Type: new 摘要:开发多语言阿尔茨海默病痴呆(AD)检测模型面临重大挑战,因为针对特定语言训练模型资源消耗大且耗时长。我们提出了一种新颖的解决方案,利用跨语言训练来检测超出模型训练语言范围的语音中的AD。本研究探究了用于检测不同语言和认知障碍水平AD的多语言深度学习模型。利用英语、中文、阿拉伯语和印地语的数据集,我们开发了基于Transformer的模型,用于二分类AD检测。我们的方法在所有语言上均实现了82%的F1分数,展现了强大的跨语言泛化能力。快速推理时间(0.5秒)支持潜在的实时筛查应用,而跨语言的一致性能表明其全球部署的可行性。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:06

# 基于语音的多语种阿尔茨海默病检测:一种跨语言迁移学习方法
来源:https://arxiv.org/html/2606.05545
\\interspeechcameraready

Yasser Abdelhalim Akinrintoyo Salomons 帝国理工学院 英国

###### 摘要

由于针对特定语言训练模型需要大量资源且耗时,开发多语种阿尔茨海默病痴呆检测模型面临重大挑战。我们提出一种新颖的解决方案,利用跨语言训练来检测模型训练时未涉及的语言中的阿尔茨海默病。本研究探讨了用于跨不同语言和认知障碍水平检测阿尔茨海默病的多语种深度学习模型。使用英语、汉语、阿拉伯语和印地语的数据集,我们开发了基于transformer的二元阿尔茨海默病分类模型。我们的方法在所有语言中均达到82%的F1分数,展现了强大的跨语言泛化能力。快速推理时间(0.5秒)支持潜在的实时筛查应用,而跨语言的一致性能表明全球部署的可行性。

###### 关键词:

语音识别、人机交互、计算副语言学

## 1 引言

痴呆症,作为一系列认知障碍的广义术语,是一种进行性神经退行性疾病,严重影响记忆、推理和日常功能。阿尔茨海默病是痴呆症最常见的形式,全球约有5500万人受其影响,预计到2050年将显著增加至1.39亿[GALE20181161, chouliaras2023use]。令人担忧的是,约75%的痴呆症病例仍未被诊断,这表明实际受影响的人数可能远超当前估计[gauthier2021world]。虽然痴呆症无法治愈,但及时诊断至关重要,因为这能让患者获得可缓解症状、减缓认知衰退并改善整体生活质量的疗法[rasmussen2019alzheimer]。早期诊断和干预是改善患者预后、获得可减轻这种致残性疾病影响的治疗的关键。

尽管神经影像学(如磁共振成像)的进步改善了阿尔茨海默病的早期检测,但这些技术的高昂成本限制了其在许多地区的可及性,尤其是在低收入和中等收入国家(LMICs),而这些国家居住着超过60%的痴呆症患者[hilabi2023impact, WHO2021dementia]。与此同时,研究人员越来越多地将语言分析作为检测早期阿尔茨海默病的潜在工具。研究表明,语言障碍(如言语异常和书写困难)是认知衰退的早期指标[mueller2018declines, PAUSES_paper]。机器学习模型,尤其是利用语言特征的模型,在识别这些阿尔茨海默病早期标志物方面已显示出成功[shi_speech_2023]。

然而,大多数基于语言的痴呆症检测研究主要集中在英语上,这造成了在非英语人群中检测阿尔茨海默病能力的显著差距。全球有超过7000种语言,以英语为中心的模型忽视了全球人口的语言多样性[gauthier2021world]。此外,为每种语言翻译现有数据集是一项不切实际的任务,尤其是对于使用人数较少或研究资源有限的语言。多语种数据集的缺乏阻碍了通用阿尔茨海默病诊断工具的开发,尤其是在痴呆症患病率高但诊断工具稀缺的地区。

为解决这一差距,我们提议开发能够跨多种语言检测阿尔茨海默病的多语种模型,无需为每种语言建立单独的数据集。通过利用多语种训练技术和跨语言学习,这些模型可以泛化到多种语言,包括研究支持有限的语言。这种方法有可能使早期阿尔茨海默病检测更易获得且更公平,尤其是在最需要此类工具的LMICs。

在这项研究中,我们详细介绍了这些多语种模型的开发和评估,展示了它们在跨多种语言检测阿尔茨海默病方面的有效性。研究结果表明,多语种方法可以为当前限制阿尔茨海默病诊断工具覆盖范围的语言障碍提供可行的解决方案,从而加强全球识别和管理阿尔茨海默病的努力。

### 1.1 基于语言的阿尔茨海默病检测模型

近年来,阿尔茨海默病检测领域已显著转向数据驱动的方法。Szatloczki等人的研究强调了自发性语言的语言分析在检测阿尔茨海默病方面的有效性,其准确性超过了其他认知检查。他们的工作指出,言语的时间特征,如语速、停顿次数和长度,可作为早期阿尔茨海默病的诊断标志,从而激励在阿尔茨海默病诊断中使用语言筛查[szatloczki2015speaking]。

近年来,我们看到了一种向基于transformer架构的范式转变,这些架构始终优于传统方法。痴呆症检测领域领先的模型之一是Matoševic和Jovic开发的基于RoBERTa的模型[ROBERTA1matovsevic2022accurate]。使用分组分层交叉验证方法,他们的模型达到了90.28%的F1分数。该模型成功归功于RoBERTa能够自动提取广泛的语言特征,包括指示认知衰退的细微语义和句法模式。

表1 (https://arxiv.org/html/2606.05545#S1.T1) 总结了近期阿尔茨海默病检测研究,突出了基于transformer的文本分类模型的主导地位。

| 模型 | F1分数 | 参考文献 |
|------|--------|----------|
| RoBERTa | 90.28% | [ROBERTA1matovsevic2022accurate] |
| ERNIE+3Pause | 88.9% | [PAUSES_paper] |
| BERTLarge | 87.23% | [BERTLARGEroshanzamir2021transformer] |
| DistilBERT+ LR | 87% | [DistilBertLiu2022transfer] |
| AWD-LSTM | 85.19% | [AWDLSTMbouazizi2022dementia] |
| SVM | 74% | [SVMrimaye2014LearningPL] |

表1:使用Pitt语料库[becker1994natural]的近期阿尔茨海默病检测工作,展示了具有最高F1分数的模型。

### 1.2 多语种和低资源语言研究

虽然现有研究已证明语言分析在诊断资源充足语言(如英语)的阿尔茨海默病方面的有效性,但针对低资源语言的诊断模型存在显著空白。造成这种差异的一个主要原因是,大多数公开的阿尔茨海默病语音数据集主要包含流利英语的参与者。

很少有研究关注用于阿尔茨海默病研究的多语种数据集。Pérez-Toro等人[perez-toro_alzheimers_2022]探讨了英语和西班牙语之间的跨语言适应,表明语言特征对于英语中的阿尔茨海默病分类更为关键,而声学特征在西班牙语中起着更大的作用。通过利用多语言嵌入和迁移学习,他们展示了改进的类间可分性,强化了跨语言方法用于阿尔茨海默病检测的可行性。

对于普通话,Guo等人[guo-etal-2020-text]引入了一种对比学习方法和一种跨语言数据增强方法,以增强从语音转录中检测阿尔茨海默病的能力。他们的方法优于传统的基于CNN和基于BERT的模型,通过双语数据增强实现了最先进的性能。该研究使用自编码器开发普通话和英语之间的共享文本表示,利用平行普通话-英语语料库(OpenSubtitle)来提高分类准确性。

Rauniyar等人[rauniyar_breaking_2023]通过手动翻译构建印地语阿尔茨海默病数据集,将这项研究扩展到印地语。他们优先保留了特定于印地语语法和句法的认知衰退标志,原始标志和翻译标志之间达到85%的一致性。他们的发现强调了保持跨语言表现不同的语言特征(如重复和语法错误)的重要性。

然而,尽管有这些贡献,明显缺乏研究调查基于文本的多语种痴呆症检测模型在多种语言上的有效性。这一差距很重要,因为跨语言泛化的成功暗示了开发通用阿尔茨海默病检测工具的潜力,减少了对特定语言模型的需求。像阿拉伯语、孟加拉语和葡萄牙语这样广泛使用的语言通常缺乏大型痴呆症研究数据集,突显了这种方法的重要性。这种多语种模型可能特别有利于缺乏资源创建大规模特定语言数据集或训练单独模型的国家。

## 2 数据集

本节将描述本研究中使用的数据集,详细介绍它们的来源、获取方法及相关特征。

### 2.1 英语数据集

以下部分概述了本研究使用的英语数据集。

#### 2.1.1 DementiaBank Pitt 语料库

见图注
图1:波士顿偷饼干图片[cookie_theft]。
Pitt数据集包含549个对话录音,包括243个健康对照组和306个痴呆症患者。参与者包括老年对照组、可能和很可能患有阿尔茨海默病的人,以及其他痴呆症诊断的人。这些音频文件是匹兹堡大学医学院阿尔茨海默病及相关痴呆症研究项目更大协议的一部分[becker1994natural]。然后使用CHAT(人类转录分析代码)协议进行手动转录[macwhinney2000childes, lanzi2023dementiabank]。

在本研究中,分析特别关注“偷饼干”图片描述任务。对于“偷饼干”描述任务,参与者被展示一幅图片(图1 (https://arxiv.org/html/2606.05545#S2.F1)),并被指示“描述你在这幅画中看到的一切”。该任务在提供标准化分析背景的同时,引发参与者的自发语言。“偷饼干”任务广泛用于痴呆症研究,并包含在波士顿诊断性失语症检查(BDAE)中[cookie_theft]。

### 2.2 非英语数据集

为本研究目的,我们获得了三个非英语数据集的访问权限,本节将详细描述它们。

#### 2.2.1 DementiaBank 普通话 Lu 语料库

该数据集包含56名痴呆症患者使用台湾普通话完成“偷饼干”图片描述任务的音频录音和相应转录,共58份转录。未包含这些患者痴呆症的严重程度信息。该数据集可通过DementiaBank获取[macwhinney2011aphasiabank]。

#### 2.2.2 DementiaBank Hindi

DementiaBankHindi数据集包含168名诊断为阿尔茨海默病的患者和98名健康对照参与者的转录。该数据集由三名流利的印地语使用者手动翻译原始DementiaBank Pitt数据集生成。除手动翻译的数据集外,他们还使用神经机器翻译创建了另外四个数据集[rauniyar_breaking_2023]。

#### 2.2.3 2024 TAUKADIAL 竞赛数据集

2024 TAUKADIAL竞赛数据集[LuzEtAlTAUKADIAL24]包含从认知评估中使用的图片描述任务收集的汉语和英语语音样本。60-90岁的英语使用者在美国招募,而60-90岁、至少受过六年教育的汉语使用者在中国台湾招募。数据集包含507个语音样本,参与者根据既定标准被分类为正常认知或轻度认知障碍。

对于汉语使用者,图片描述任务包括描述一组描绘台湾文化的三幅图片。

仅提供了英语样本的录音转录。因此,按照竞赛组织者的指导,使用了OpenAI Whisper语音转文本模型。Whisper[whisper]用于转录汉语样本。

#### 2.2.4 阿拉伯语数据集

本研究还使用了从英语Pitt数据集衍生出的一个新阿拉伯语数据集。该数据集通过系统化的翻译工作流创建,结合了基于GPT-4的机器翻译和人工标注者的人工精炼,以确保语言准确性和文化相关性。它包含549份转录,为探索低资源语言阿拉伯语的阿尔茨海默病检测提供了宝贵资源[Author2025]。

## 3 XLM-RoBERTa 模型

XLM-RoBERTa模型是本研究中使用的主要模型。XLM-RoBERTa是RoBERTa模型的多语言扩展,使用掩码语言建模方法在包含100种语言的大量语料库上进行了预训练。与早期依赖维基百科数据相对有限规模的多语言模型不同,XLM-RoBERTa在2.5 TB的清洁CommonCrawl数据上进行了训练,显著提高了其学习跨语言表示的能力。XLM-RoBERTa在分类、序列标注和问答等多语言任务中表现出色,并在高资源和低资源语言上都展现了稳健的性能。通过设定新的性能基准,XLM-RoBERTa已成为多语言自然语言处理研究的关键模型[conneau-etal-2020-unsupervised]。

## 4 多语言模型的方法与实验

在特定语言的数据集不存在的情况下,探索阿尔茨海默病检测模型是否可以在语言之间迁移至关重要。通过证明跨语言能力,尤其是在结构上不相似的语言之间,开发通用诊断模型的潜力会增加。

我们开发并训练了一系列多语言模型,使用了涵盖多种语言的数据集,具体为英语、汉语、阿拉伯语和印地语。选择这些语言是基于数据可访问性的实际限制,因为这些是唯一获得访问权限且包含真实标签的数据集。

为实现这一目标,我们进行了若干实验,包括在“偷饼干”任务上微调和评估多语言语言模型。在每次实验中,模型在特定语言的数据集上进行训练,并在一种未见过的不同语言数据集上进行测试。目标是通过分析多语言分类模型在训练期间未遇到的语言上的表现,探索基于文本的痴呆症分类中跨语言学习的潜力。

利用了所有可访问的数据集,从而能够测试多种语言,以确定跨语言学习是否仅能发生在语言相似的语言之间。我们跨四种语言(英语、阿拉伯语、印地语和汉语)进行了五个主要的二元分类实验。

每个实验都使用了XLM-RoBERTa[conneau-etal-2020-unsupervised]架构,并进行了超参数调优。超参数在批量大小为16和32、学习率从1e-5到5e-5以及训练轮数范围内进行了调优。

相似文章

MultiLinguahah:一种新的无监督多语言声学笑声分割方法

arXiv cs.CL

本文介绍了 MultiLinguahah,这是一种基于 BYOL-A 编码器表示并使用隔离森林(Isolation Forests)进行无监督多语言声学笑声分割的方法。作者证明,通过将笑声检测视为异常检测任务,该方法在非英语环境下的表现优于最先进(SOTA)的监督方法。

基于可解释机器学习与临床生物标志物的阿尔茨海默病早期检测:利用阿尔茨海默病神经影像学倡议(ADNI)数据集的多分类研究

arXiv cs.AI

本研究利用ADNI数据集中的八项临床生物标志物,构建了一个结合SHAP可解释性的XGBoost分类器,实现对阿尔茨海默病的三分类检测(认知正常、轻度认知障碍、AD),在留出测试集上达到宏观AUC 0.982、Cohen's kappa 0.909。SHAP分析表明,CDR整体评分是认知正常和轻度认知障碍的主导预测因子,而CDR-SB与MMSE共同驱动了AD的分类判别。