从黑箱到临床洞察：一个用于语音认知障碍检测的多阶段可解释框架

arXiv cs.CL 2026/06/29 04:00 论文

explainable-ai cognitive-impairment speech-analysis transformer shap llama clinical-workflow

摘要

本文提出一个多阶段可解释框架，结合基于SHAP的词元归因、理论指导的语言特征以及LLaMA-3.1-70B-Instruct大语言模型推理，用于解释基于Transformer的语音模型在认知障碍检测中的表现，取得了良好的临床一致性及高可用性评分。

arXiv:2606.27973v1 公告类型：新摘要：基于语音的认知障碍检测提供了一种非侵入性、易于获取的替代方案，取代昂贵的生物标志物检测，但基于Transformer的模型在临床上仍难以解释。我们提出一种多阶段可解释性框架，通过整合基于SHapley加法解释（SHAP）的词元归因、理论指导的语言特征以及使用LLaMA-3.1-70B-Instruct的四阶段LLM推理流程，将黑箱Transformer预测转化为基于临床的叙述。该框架基于SpeechCARE-自适应门控网络多模态筛查模型（在NIA PREPARE基准上F1=72.11%），将模型输出映射到四个认知-语言维度，包括词汇丰富性、句法复杂性和语义连贯性。在70个分层英语样本上的医生评估表明，该框架与患者层面的认知特征具有良好一致性，系统可用性量表得分为82/100，表明其在临床工作流集成方面具有高度潜力。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:24

# 从黑盒到临床洞察：一种用于语音认知障碍检测的多阶段可解释框架
来源：https://arxiv.org/html/2606.27973
Haghbin Rashidi Zolnour Taherinezhad Fartoot Azadmaleki Noble Dadkhah Zolnoori

SinaAliFatemehAliHosseinJames MMaryamMaryam¹独立研究者 ²哥伦比亚大学，美国 ³查尔姆斯理工大学，瑞典hbn\.yasaman@gmail\.com, sinarashidi46@gmail\.com, zonour97@gmail\.com, ftaherin00@gmail\.com, fartoot\.ali\.80@gmail\.com, hosein\.azadmaleki@gmail\.com, jn2054@cumc\.columbia\.edu, tirani@chalmers\.se, mz2825@cumc\.columbia\.edu (https://arxiv.org/html/2606.27973v1/mailto:[email protected],%[email protected],%[email protected],%[email protected],%[email protected],%[email protected],%[email protected],%[email protected],%[email protected])

###### 摘要

基于语音的认知障碍检测提供了一种非侵入性、可获取的替代昂贵生物标志物检测的方法，然而基于Transformer的模型在临床上仍然难以解释。我们提出了一种多阶段可解释性框架，通过整合基于SHAP（SHapley Additive exPlanations）的词元归因、理论指导的语言特征以及使用LLaMA-3.1-70B-Instruct的四阶段LLM推理流水线，将黑盒Transformer预测转化为临床可解释的叙述。该框架构建于SpeechCARE-自适应门控网络多模态筛查模型（在NIA PREPARE基准上F1分数为72.11%）之上，将模型输出映射到四个认知-语言维度，包括词汇丰富度、句法复杂度和语义连贯性。对70个分层英语样本的医师评估表明，该框架与患者层面的认知特征具有高度一致性，系统可用性量表得分为82/100，显示出在临床工作流程中整合的高潜力。

###### 关键词：

可解释人工智能，认知障碍检测，语音筛查，临床语音分析

## 1 引言

认知障碍，包括轻度认知障碍（MCI）和阿尔茨海默病（AD），构成了一个紧迫的公共卫生挑战，预计到2050年美国患病率将达到1100-1600万例[petersen2016mild]。语音为早期认知衰退提供了一种独特且易于获取的非侵入性生物标志物[meilan2020changes]。声学和语言学线索反映了语音运动规划、语言组织、执行功能和语义记忆方面的障碍[petersen2018practice]。

基于Transformer的语音和语言模型显著提高了认知障碍检测的性能[zolnoori2026detecting, rashidi2025speechcura, 11462646, haghbin2026voice]，然而它们的黑盒性质仍然是临床转化的主要障碍。临床医生需要能够将模型输出与个体患者具有临床意义的语言和语音模式联系起来的解释。这种需求推动了对可解释人工智能（XAI）日益增长的兴趣。

尽管具有这种重要性，XAI在基于语音的认知障碍检测中仍然有限。例如，Iqbal等人[iqbal2024explainable]使用词性分布和词汇多样性训练了一个随机森林分类器至ADReSS基准数据集[luz2021alzheimer]，并采用SHAP（SHapley Additive exPlanations）[ekanayake2022novel]来量化队列层面的语言特征重要性。

更近期的研究已将XAI应用于Transformer模型。Ilias等人[iiias2022explainable]使用LIME[garreau2020explaining]来解读一个在ADReSS转录本上训练的BERT模型，描述了AD与非AD语音之间的语言差异；而Li等人[li2024useful]将SHAP应用于ADReSSo[luz21_interspeech]上的微调BERT模型，以排序有影响力的词元。Rezaii等人[rezaii2025voiceprints]进一步将SHAP应用于XGBoost模型，并将LIME应用于微调的RoBERTa-base模型，表明模型依赖于模糊表达（例如，“我不记得了”）作为认知障碍的标志。

尽管取得了这些进展，现有方法侧重于词元级别的归因或手工特征，与临床医生用于评估的认知-语言机制之间的联系有限。SHAP通过数值重要性分数突出显示有影响力的词元，但并未解释这些语言模式为何反映潜在的认知过程，而这种技术输出限制了临床实用性，因为临床医生需要的是通俗易懂的论证。

为解决这些局限性，我们提出了一种多阶段可解释性框架，系统地将Transformer预测与临床可解释的语言叙述联系起来。该框架整合了三个互补组件：（1）针对Transformer架构调整的SHAP，通过对子词归因进行层次聚合以实现单词级解释；（2）补充语言特征，捕获临床相关维度，如词汇丰富度和句法复杂度；（3）序列化大型语言模型（LLM）编排，一个使用LLaMA-3.1-70B-Instruct[grattafiori2024llama]的四阶段推理流水线，将模型归因和语言证据转化为结构化、通俗易懂的临床解释。

该框架扩展了SpeechCARE自适应门控网络（AGF）[azadmaleki2025speechcare]，这是一个通过基于混合专家架构融合的多模态筛查模型，集成了声学和语言Transformer表示。该筛查模型和可解释性框架均在NIA PREPARE挑战赛（2025年4月）中获得认可[zolnoori2025national]。所有代码均可在GitHub (https://github.com/SpeechCARE/Cognitive-Speech-Explainer-Interspeech2026)获取。

## 2 方法

### 2.1 数据：PREPARE挑战数据集

我们使用了美国国家老龄化研究所（NIA）PREPARE基准数据集[azadmaleki2025speechcare]，包含来自2058名参与者（训练集1646人，测试集412人）的语音录音，涵盖三种语言（英语、西班牙语、普通话）。队列包括1140名认知健康对照者、268名MCI患者和650名AD患者。录音收集自多个语料库，截断至最长30秒（平均27秒）。从训练数据中随机抽取20%（329名参与者）作为验证集，并按诊断组进行分层划分，以确保均衡代表性。

### 2.2 预处理组件

数据预处理包括三个步骤：(1) 年龄分层：年龄被离散化为三个类别，反映认知衰老阶段：中年（46-65岁）、老年人（66-80岁）和老老年人（80岁以上）。选择这种编码是基于初步实验，在后续分类任务中显示相比连续年龄表示性能更优。(2) 幅度归一化：峰值归一化标准化了各录音的信号幅度。每个波形被重新缩放，使最大绝对幅度达到0.95。(3) 自动语音识别：Whisper-Large[radford2023robust]，一个基于Transformer的多语言ASR模型，生成了单词级转录本，在多种语言和声学条件下具有强大的开源性能。为确保转录质量，所有不完整或错误的转录本均经过人工审核和纠正。

### 2.3 模型架构

参见图注图 1：筛查模型架构。该模型采用门控机制动态加权从 mGTE 语言编码器、mHuBERT 声学编码器和人口统计学年龄中提取的多模态表示。作为筛查模型，我们采用了 SpeechCARE 自适应门控融合（SpeechCARE-AGF），这是一个动态分配不同模态权重的多模态框架。如图 1 (https://arxiv.org/html/2606.27973#S2.F1) 所示，该系统包括两个主要组件：特征提取网络和融合网络。该模型的详细描述可在此处查看[azadmaleki2025speechcare]。

#### 2.3.1 特征网络

特征网络从专门针对语言和语音的预训练Transformer中生成表示。语言编码器使用 mGTE[zhang2024mgte]。最后一层的 [CLS] 词元嵌入提供了语言表示。声学编码器通过 mHuBERT[boito2024mhubert] 处理音频。

为适应超出声学编码器有效语境（约5秒）的30秒录音，同时保留局部韵律线索并建模长时时间结构，音频被分割成重叠的5秒窗口，用 mHuBERT 对每个片段进行编码，并添加一个可训练的 [CLS] 词元。增强后的序列通过一个定制的自注意力编码器（两层，四个注意力头）处理，以生成声学表示。

年龄被分类编码为三组（中年、老年人、老老年人）作为人口统计学表示。

#### 2.3.2 融合网络

受混合专家[lo2025closer]框架的启发，AGF 网络通过关注最具判别性的特征来动态加权模态。隐藏表示被拼接并由一个门控网络处理，该网络分配动态权重，然后每个隐藏表示通过一个全连接层投影到特定模态的输出向量。这些向量的加权和形成融合的逻辑值，SoftMax 层生成最终预测。该架构在 PREPARE 挑战赛第二阶段获得特别认可奖。

### 2.4 模型训练与超参数调优

为训练 SpeechCARE 模型，mHuBERT 和 mGTE 编码器在统一架构内同时进行微调。模型训练了15个 epoch，每个 epoch 后评估验证性能，并选择最佳检查点（最高验证 F1 分数）用于测试。mGTE 的学习率为 10^{-6}，其余组件的学习率为 10^{-5}，批量大小为4。全连接层使用128个神经元和 Tanh 激活函数，而门控网络使用384个神经元（三个模态 × 每个128个神经元）。

### 2.5 临床基础的可解释性框架

我们提出了一种新颖的多阶段可解释性框架，将模型归因与临床可解释的语言证据联系起来。如图 2 (https://arxiv.org/html/2606.27973#S2.F2) 所示，我们的方法结合了基于 SHAP 的词元归因、理论指导的语言特征以及 LLM 驱动的推理，为认知障碍检测生成透明、领域相关的解释。

参见图注图 2：用于临床基础认知障碍解释的多阶段可解释性流水线。SHAP 归因应用于 SpeechCARE-AGF 筛查模型以提取词元级贡献。这些归因与理论指导的语言特征一起，通过四个连续的 LLM 推理阶段进行处理。

#### 2.5.1 针对 Transformer 模型的 SHAP 适配

基于Transformer的模型将输入文本分词为子词单元，这使基于扰动的解释方法（如SHAP）的应用复杂化[li2024useful]。为解决此问题，我们实现了一个模型包装器，使用分词器编码输入文本，计算Transformer嵌入，并输出类别概率，使SHAP能够估计单个词元对模型预测的贡献。为处理子词分词，我们应用了层次化SHAP值聚合，将子词级别的归因映射回可解释的单词级表示。

#### 2.5.2 理论指导的语言特征提取

虽然SHAP值提供局部词元级解释，但它们缺乏语言可解释性的明确基础。为解决这一局限性，我们提取了跨四个临床基础领域的手工特征[zolnoori2023adscreen, zolnour2025llmcare]：(1) 词汇丰富度（例如，类型-词符比、Brunet指数和Honore指数）；(2) 句法复杂度（例如，平均从句长度、词性多样性）；(3) 不流畅和重复（例如，语速、长时间停顿）；(4) 语义连贯性（例如，内容密度、代词与名词比率）。

#### 2.5.3 用于临床解释的多阶段LLM推理流水线

为将SHAP输出和语言特征转化为具有临床意义的解释，我们开发了一种基于LLM编排的新颖解释生成系统。受多智能体AI架构[azure_ai_agent_design_patterns]的启发，我们的方法实现了一个手动编排的顺序流水线，其中专门的推理阶段按照预定义的线性顺序处理信息，以实现逐步的释义细化。

我们的流水线串联了四个专门的LLM，每个LLM配置了不同的提示和知识源。所有LLM在其提示中共享公共信息（原始转录本和模型预测）。我们使用LLaMA-3.1-70B-Instruct[grattafiori2024llama]作为所有四个阶段的推理LLM。四个阶段的完整提示可在项目GitHub (https://github.com/SpeechCARE/Cognitive-Speech-Explainer-Interspeech2026) 仓库中找到。

阶段 1 - 词元级 SHAP 解释：此LLM接收作为结构化输入的SHAP分数（词元、SHAP值），以及转录本和模型预测（对照、MCI、AD）。一个指令提示引导LLM将词元重要性映射到六个认知-语言维度：词汇丰富度、句法复杂度、不流畅和重复、语义连贯性、空间推理困难以及执行功能。为保持解释保真度，提示中包含了每个类别的临床描述。提供这些指导原则将推理过程约束在认知-语言框架内，减少语义漂移并确保与临床基础构念的一致性。

阶段 2 - 特征级语言解释：对应于六个认知-语言维度的理论指导语言特征作为结构化输入提供，包括其数值和操作定义（例如，类型-词符比、平均语句长度、停顿频率）。当可行时，包含了来自先前文献的参考范围（例如，类型-词符比：0-1，较低值反映词汇重复）。提供这些结构化的临床描述确保模型的推理保持在认知-语言领域内，并与已建立的临床解释保持一致。LLM被提示根据认知-语言功能来解释这些定量模式。

阶段 3 - 跨源解释聚合：此阶段接收阶段1和阶段2的输出作为结构化输入，并被提示比较基于SHAP的词元归因与特征级指标，将收敛的证据整合为单一解释。

阶段 4 - 结构化报告生成：序列中的最后一个阶段执行“润色和总结”工作流程。来自阶段3的聚合解释被重新提交并附上一个总结提示，指示从阶段1中提到的六个维度中提取四个最具诊断性的语言类别。对于每个维度，模型生成简洁的要点解释，提供临床可解释的报告，以支持临床可读性。

### 2.6 临床有效性评估

为评估可解释性框架的临床有效性，两位初级保健医生独立审查了对一个分层样本的最终解释。

从黑箱到临床洞察：一个用于语音认知障碍检测的多阶段可解释框架

相似文章

基于可解释机器学习与临床生物标志物的阿尔茨海默病早期检测：利用阿尔茨海默病神经影像学倡议（ADNI）数据集的多分类研究

通过遗忘实现公平的认知障碍检测

比较用于解释抑郁症检测中黑盒EEG模型的事后可解释性AI方法

大型语言模型能否模仿人类语音进行临床评估？基于LLM的数据增强方法用于认知评分预测

应用于大语言模型的可解释性研究：对比分析

提交意见反馈