基于可解释机器学习与临床生物标志物的阿尔茨海默病早期检测：利用阿尔茨海默病神经影像学倡议（ADNI）数据集的多分类研究

arXiv cs.AI 2026/06/04 04:00 论文

alzheimers-disease machine-learning explainable-ai xgboost shap biomarkers early-detection

摘要

本研究利用ADNI数据集中的八项临床生物标志物，构建了一个结合SHAP可解释性的XGBoost分类器，实现对阿尔茨海默病的三分类检测（认知正常、轻度认知障碍、AD），在留出测试集上达到宏观AUC 0.982、Cohen's kappa 0.909。SHAP分析表明，CDR整体评分是认知正常和轻度认知障碍的主导预测因子，而CDR-SB与MMSE共同驱动了AD的分类判别。

arXiv:2606.03995v1 公告类型：跨领域摘要：背景：阿尔茨海默病（AD）影响全球超过5500万人。从常规临床评估中准确、可解释地识别认知正常（NC）、轻度认知障碍（MCI）和AD，仍是一项尚未满足的关键临床需求。方法：本研究基于阿尔茨海默病神经影像学倡议（ADNI）的八项临床特征——MMSE、CDR整体评分、CDR量表总分（CDR-SB）、MoCA、FAQ、年龄、性别和受教育程度——构建了一个用于三分类检测的XGBoost分类器。超参数通过Optuna进行优化（50次试验）；类别不平衡问题采用SMOTE方法处理。模型性能通过宏观AUC-ROC（含1000次迭代自举法95%置信区间）、宏观F1值、平衡准确率及Cohen's kappa进行评估。SHAP值用于提供特征层面的可解释性分析。结果：数据集共包含1641名基线受试者（608例NC、767例MCI、266例AD）。五折交叉验证结果显示，平均宏观AUC为0.983（标准差0.007），准确率为0.944（标准差0.006），宏观F1值为0.929（标准差0.008）。在留出测试集（n = 247）上，宏观AUC为0.982（95% CI：0.965--0.995），准确率为0.943，平衡准确率为0.932，宏观F1值为0.927，Cohen's kappa为0.909。SHAP分析表明，CDR整体评分是NC和MCI的主导预测因子，而CDR-SB与MMSE共同驱动了AD的分类判别。结论：基于常规临床评估训练的可解释机器学习模型，能够以接近完美的表现实现阿尔茨海默病三分类检测。SHAP分析揭示了具有临床合理性的、针对各类别的特征重要性模式，支持了模型的临床有效性。未来工作将引入语音生物标志物，将该框架扩展至多模态检测。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:11

# 利用可解释机器学习对临床生物标志物进行阿尔茨海默病早期检测：基于阿尔茨海默病神经影像学计划（ADNI）数据集的多分类研究

来源：https://arxiv.org/html/2606.03995
Afshan Hashmi

###### 摘要

**背景：** 阿尔茨海默病（AD）影响全球超过5500万人。通过常规临床评估准确、可解释地检测正常认知（NC）、轻度认知障碍（MCI）和AD，仍是一项亟待满足的临床需求。

**方法：** 本研究开发了一个XGBoost分类器，利用来自阿尔茨海默病神经影像学计划（ADNI）的八项临床特征进行三分类检测，包括：MMSE、CDR整体评分、CDR评分框总和（CDR-SB）、MoCA、FAQ、年龄、性别和受教育年限。使用Optuna（50次试验）对超参数进行优化；采用SMOTE处理类别不平衡问题。性能评估指标包括：宏平均AUC-ROC（1000次迭代自助法95%置信区间）、宏平均F1、平衡准确率和Cohen's kappa。SHAP值提供了特征级别的可解释性分析。

**结果：** 数据集包含1641名基线受试者（608名NC、767名MCI、266名AD）。五折交叉验证结果显示，平均宏平均AUC为0.983（标准差0.007），准确率为0.944（标准差0.006），宏平均F1为0.929（标准差0.008）。在留出测试集（$n=247$）上，宏平均AUC为0.982（95% CI：0.965–0.995），准确率为0.943，平衡准确率为0.932，宏平均F1为0.927，Cohen's $\kappa$ 为0.909。SHAP分析表明，CDR整体评分是区分NC和MCI的主导预测因子，而CDR-SB与MMSE共同驱动了AD的分类。

**结论：** 一个基于常规临床评估训练的可解释机器学习模型实现了近乎完美的三分类阿尔茨海默病检测。SHAP分析揭示了具有临床合理性的、类别特异性的特征重要性模式，支持模型的临床有效性。未来工作将引入语音生物标志物，将该框架扩展至多模态检测。

**关键词：** 阿尔茨海默病；轻度认知障碍；机器学习；XGBoost；可解释性；SHAP；ADNI；早期检测；认知评估；梯度提升

## 1. 引言

阿尔茨海默病（AD）是全球最常见的神经退行性疾病，占所有痴呆病例的60–70%，估计影响全球约5500万人，预计该数字到2050年将超过1.39亿\[29,4\]。尽管其临床和社会经济负担极为沉重，目前尚无经批准的疾病修饰药物治疗方案，因此早期准确诊断成为核心临床优先事项\[14\]。

轻度认知障碍（MCI）代表正常认知老化与显性痴呆之间的过渡阶段，其特征为客观记忆下降，但尚未对日常功能造成实质性影响\[23\]。每年约有15%的MCI确诊患者进展为AD，三年内累计转化率达30–40%\[18\]。因此，准确识别具有高转化风险的MCI患者是痴呆研究中最具重要意义的挑战之一。

标准化临床工具——包括简易精神状态检查量表（MMSE）\[13\]、临床痴呆评定量表（CDR）\[20\]、蒙特利尔认知评估量表（MoCA）\[21\]和功能活动问卷（FAQ）\[24\]——是常规认知评估的基石。这些工具在全球记忆门诊中广泛使用，能够生成定量评分，并已被证实在表征认知状态方面具有良好效度。然而，它们在可解释机器学习框架内对NC、MCI和AD进行自动化多分类同步鉴别的潜力，仍有待充分探索。

梯度提升决策树模型，尤其是XGBoost\[7\]，在异质性表格临床数据上表现出色，在多个医学预测基准测试中优于深度学习方法。关键在于，与神经网络模型不同，梯度提升树与SHAP（SHapley Additive exPlanations）\[16\]兼容——后者是一种理论上严格的框架，用于计算各特征对单个预测的贡献。这种强大性能与可解释性的结合对于临床应用至关重要，因为算法透明性是监管和伦理的必要要求。

阿尔茨海默病神经影像学计划（ADNI）\[28\]提供了痴呆研究领域规模最大、表征最全面的多中心纵向数据集之一。此前已有多项研究使用ADNI进行AD与对照组的二分类\[5,15\]或MCI向AD转化预测\[19,26\]。然而，很少有研究仅使用临床评估特征，同时进行NC、MCI和AD的三分类鉴别，并结合严格的外部验证和系统性的逐类可解释性分析。

本研究旨在填补这一空白，利用ADNI常规临床评估中的八项特征，开发并外部验证一个可解释的XGBoost三分类阿尔茨海默病检测器。研究采用了基于Optuna的贝叶斯超参数优化、SMOTE类别不平衡校正，以及SHAP TreeExplainer进行逐类特征重要性分析。所有性能指标均附有自助法置信区间和五折交叉验证结果，符合更新版TRIPOD+AI报告指南\[9\]的要求。

## 2. 材料与方法

### 2.1 数据集与伦理考量

数据来自阿尔茨海默病神经影像学计划（ADNI；adni.loni.usc.edu）。ADNI于2003年作为公私合作项目启动，由首席研究员Michael W. Weiner医学博士领导，主要目标是测试序列磁共振成像、正电子发射断层扫描、其他生物标志物以及临床和神经心理学评估能否联合用于测量MCI和早期AD的进展。ADNI已获得所有参与机构审查委员会的批准；所有受试者均提供了书面知情同意书。本研究仅使用经过去识别化的公开可用数据，因此豁免于额外的本地伦理审查。

### 2.2 受试者筛选与标注

本研究专门使用基线访视数据（VISCODE = 'bl'），以模拟首次就诊的临床场景，并防止纵向随访中的时间数据泄露。受试者根据ADNI诊断摘要分为三个诊断组：正常认知（NC；DIAGNOSIS = 1）、轻度认知障碍（MCI；DIAGNOSIS = 2）和阿尔茨海默病（AD；DIAGNOSIS = 3）。最终纳入1641名受试者：608名NC（37.1%）、767名MCI（46.7%）和266名AD（16.2%）。

### 2.3 特征提取

从基线时五个ADNI评估表中提取了八项特征：（1）MMSE总分\[13\]；（2）CDR整体评分\[20\]；（3）CDR评分框总和（CDR-SB）\[22\]；（4）MoCA总分\[21\]；（5）FAQ总分\[24\]；（6）由出生年份推算的年龄；（7）性别（二值编码：男性 = 1，女性 = 0）；（8）正式受教育年限。MoCA数据缺失率为59%，FAQ为1.1%，年龄为0.1%。所有缺失值均采用中位数填补，填补参数仅从训练集拟合，以防止数据泄露。

### 2.4 数据划分与类别不平衡处理

使用分层随机抽样将受试者划分为训练集（70%）、验证集（15%）和测试集（15%），以保持类别比例（随机种子42）。留出测试集（$n=247$）在任何模型开发前被单独保留，仅用于最终评估。SMOTE\[6\]仅应用于训练集，通过在现有样本之间进行插值生成合成少数类样本（$k=5$个邻居），最终得到每类536个样本的平衡训练集。

### 2.5 模型开发与超参数优化

使用`multi:softprob`目标函数训练XGBoost分类器\[7\]，以实现概率化三分类输出。超参数优化使用Optuna框架\[2\]（50次试验，树状Parzen估计器采样器），以验证集上的对数损失为最小化目标。搜索空间包括：估计器数量（200–800）、最大树深度（3–8）、学习率（0.01–0.2，对数尺度）、子采样比率（0.6–1.0）、列子采样比率（0.6–1.0）和L1正则化系数（0.0001–10.0，对数尺度）。最优配置为：$n\_\text{estimators}=544$，$\text{max\_depth}=3$，$\text{lr}=0.199$，$\text{subsample}=0.941$，$\text{colsample}=0.637$，$\alpha=0.134$。最终训练时采用patience为30轮的早停策略。

### 2.6 评估指标

模型性能评估指标包括：（1）宏平均AUC-ROC（1000次迭代分层自助法95%置信区间）\[10\]；（2）整体准确率；（3）平衡准确率；（4）宏平均F1分数；（5）Cohen's kappa\[8\]。逐类灵敏度和特异性通过一对多二值化计算。在合并训练集和验证集（$n=1{,}394$）上进行五折分层交叉验证。

### 2.7 可解释性分析

将SHAP TreeExplainer\[16\]应用于所有测试集预测。按特征、按诊断类别计算平均绝对SHAP值，得到类别特异性特征重要性排名。该分析捕捉了每项临床特征对模型区分各诊断类别的差异性贡献。

### 2.8 报告标准

本文遵循TRIPOD+AI清单\[9\]进行透明化报告。所有分析均在Python 3.12环境下完成，使用XGBoost v2.x、SHAP v0.44、scikit-learn v1.3、imbalanced-learn v0.11和Optuna v3.x。完整源代码和分析流程可在[https://github.com/\[to-be-added-upon-acceptance\]](https://github.com/%5Bto-be-added-upon-acceptance%5D)获取。

## 3. 结果

### 3.1 数据集特征

最终队列包含1641名基线受试者。表1按诊断组列出了临床和人口统计学特征。所有特征在各组间均呈现清晰且统计上一致的差异。NC受试者的MMSE评分最高（$29.1\pm1.0$），CDR-SB（$0.0\pm0.1$）和FAQ评分（$0.1\pm0.5$）最低。MCI受试者呈现中间水平：MMSE $27.5\pm1.9$，CDR-SB $1.5\pm0.9$，FAQ $3.2\pm4.2$。AD受试者的表现明显受损：MMSE $23.2\pm2.3$，CDR-SB $4.3\pm1.7$，FAQ $13.1\pm6.9$。AD受试者的平均年龄（$73.2\pm10.1$岁）高于NC（$66.2\pm11.2$岁）。图1展示了类别分布及各诊断组的评分分布情况。

**表1：** 各诊断组基线临床及人口统计学特征（均值$\pm$标准差）。NC = 正常认知；MCI = 轻度认知障碍；AD = 阿尔茨海默病；MMSE = 简易精神状态检查量表；CDR-SB = 临床痴呆评定量表评分框总和；MoCA = 蒙特利尔认知评估量表；FAQ = 功能活动问卷。

图1：数据集特征。（A）类别分布（NC = 608，MCI = 767，AD = 266）。（B）各诊断组MMSE评分分布。（C）各诊断组CDR评分框总和分布。箱线图显示中位数、四分位距及1.5$\times$IQR须线。

### 3.2 模型性能

表2展示了模型性能并与已发表研究进行了比较。五折交叉验证结果显示，平均宏平均AUC为0.983（标准差0.007），各折范围为0.975至0.992。平均准确率为0.944（标准差0.006），宏平均F1为0.929（标准差0.008）。

在留出测试集（$n=247$）上，模型的宏平均AUC为0.982（95% CI：0.965–0.995），准确率为0.943，平衡准确率为0.932，宏平均F1为0.927，Cohen's $\kappa$ 为0.909。$\kappa$ 值0.909对应超越随机水平的近乎完美一致性\[8\]。图2展示了ROC曲线和混淆矩阵，图3展示了各折交叉验证性能。

**表2：** 与已发表研究的比较。本研究的AUC为宏平均（一对多），基于1000次迭代的自助法95%置信区间。对比研究的结果来自原始文献。BA = 平衡准确率；N/R = 未报告；XAI = 可解释性方法；MRI = 磁共振成像；PET = 正电子发射断层扫描；APOE = 载脂蛋白E基因；Grad-CAM = 梯度加权类激活映射。

图2：留出测试集（$n=247$）模型评估。（A）多分类ROC曲线及各类别AUC。宏平均AUC = 0.982（95% CI：0.965–0.995）。（B）混淆矩阵（绝对计数）。（C）归一化混淆矩阵。NC = 正常认知；MCI = 轻度认知障碍；AD = 阿尔茨海默病。

图3：五折交叉验证结果。每个点代表一折。水平虚线表示均值。AUC = ROC曲线下面积。

### 3.3 SHAP特征重要性

表3列出了各诊断类别的前五位SHAP特征；图4展示了完整重要性排名。各诊断类别的特征重要性模式存在有意义的差异。对于NC分类，CDR整体评分具有压倒性主导地位（均值$|\text{SHAP}|=2.218$），其次是CDR-SB（0.639），两者差距明显。对于MCI分类，CDR整体评分仍是首要特征（1.417），MMSE评分（0.463）和CDR-SB（0.322）共同发挥贡献。对于AD分类，CDR-SB（1.117）和MMSE评分（0.942）并列主导，FAQ总分在三个类别的顶级预测因子中均持续出现。

**表3：** 各诊断类别前五位SHAP特征（括号内为平均绝对SHAP值）。SHAP = SHapley Additive exPlanations；CDR = 临床痴呆评定量表；CDR-SB = CDR评分框总和

基于可解释机器学习与临床生物标志物的阿尔茨海默病早期检测：利用阿尔茨海默病神经影像学倡议（ADNI）数据集的多分类研究

相似文章

预测中期阿尔茨海默病进展：基于ADNI临床和生物标志物历史数据实现24个月CDR-SB变化的残差间隙感知变换器

基于跨语言迁移学习的多语言语音阿尔茨海默病检测方法

基于CT钙化积分扫描中机会性冠状动脉钙化和心外膜脂肪评估的机器学习预测阻塞性冠状动脉疾病

MIT FINGERS-7B：首款用于阿尔茨海默病预防的多组学AI模型

比较用于解释抑郁症检测中黑盒EEG模型的事后可解释性AI方法

提交意见反馈