预测中期阿尔茨海默病进展:基于ADNI临床和生物标志物历史数据实现24个月CDR-SB变化的残差间隙感知变换器
摘要
本文提出了一种残差间隙感知变换器,将混合效应统计参考与基于变换器的残差学习相结合,利用ADNI临床和生物标志物历史数据预测24个月CDR-SB变化,在均方误差和相关性上均优于基线模型。
查看缓存全文
缓存时间: 2026/05/19 06:40
# 预测中等时间跨度的阿尔茨海默病进展:基于ADNI临床和生物标志物历史数据,采用残差间隙感知Transformer预测24个月CDR-SB变化 **来源:** https://arxiv.org/html/2605.16319 Ran Tong¹\*,†、Tong Wang²\*,†、Lanruo Wang³、Yin Ni⁴ ¹德克萨斯大学达拉斯分校数学科学系,美国德克萨斯州理查森市,邮编75080 ²康涅狄格大学植物科学与景观设计系,美国康涅狄格州斯托尔斯市 ³德克萨斯大学达拉斯分校纳文·金达尔管理学院,美国德克萨斯州理查森市,邮编75080 ⁴浙江省人民医院,中国浙江省 *这些作者贡献相同。 †通讯作者。 ###### 摘要 中等时间跨度的阿尔茨海默病进展预测具有挑战性,因为未来的临床评分可能与基线严重程度密切相关,而纵向生物标志物历史记录却是不规则且不完整的。我们利用阿尔茨海默病神经影像学倡议(ADNI)的整合表格,开发了一种基于锚点的24个月临床痴呆评定量表总分和(CDR-SB)变化分析。每个带标签的样本锚定于一次轻度认知损害访视,仅使用在该锚点时间或之前观察到的临床和生物标志物历史数据,并将响应定义为未来访视(在18-30个月窗口内最接近24个月的那一次)的CDR-SB值减去锚点CDR-SB值。分析队列包含来自858名参与者的2,600个带标签锚点及7,276条纵向记录,涵盖了认知、功能、人口统计学、诊断、APOE4等位基因计数(载脂蛋白E ε4等位基因数)、结构磁共振成像汇总数据和脑脊液生物标志物,所有数据均按实际访视日期对齐。我们提出一种残差间隙感知Transformer,它将混合效应统计参考与基于Transformer的残差学习(利用锚点前的纵向临床和生物标志物历史)相结合。该模型在混合效应参考中使用参与者水平的随机截距,使用观测水平的三元组标记化处理不规则历史,并在自注意力机制中引入一个学习的非负时间间隔惩罚。最终预测值是混合效应固定效应预测与学习得到的Transformer残差之和。我们在重复的参与者层面训练-测试分割下,将所提模型与基于贝叶斯信息准则选择的线性混合效应基线、GRU-D和STraTS进行了比较。在五个参与者层面的随机种子下,所提模型在所有报告指标上均取得了最佳的平均测试性能:相对于混合效应基线,均方误差降低了13.1%,预测-观测相关性提高了26.4%。同时,在平均误差和相关性方面,该模型也优于GRU-D和STraTS。这些结果表明,统计锚定和间隙感知残差学习为利用ADNI的纵向临床和生物标志物历史数据预测中等时间跨度的阿尔茨海默病进展提供了一种有用的结构。 ## 1 引言 阿尔茨海默病进展是一个纵向过程。认知状态、功能损害、诊断和生物标志物负担在多次访视中随时间变化,且往往随访不规则、生物标志物覆盖不完全。这种结构使得阿尔茨海默病神经影像学倡议(ADNI)成为研究疾病进展(而非仅横断面诊断)的重要资源。在一项广泛的ADNI出版物综述中,Weiner等人(2017 (https://arxiv.org/html/2605.16319#bib.bib34))指出,ADNI已成为生物标志物验证和纵向疾病特征描述的主要平台。Veitch等人(2024 (https://arxiv.org/html/2605.16319#bib.bib31))记录到,后来的ADNI研究继续支持纵向建模、生物标志物研究以及治疗时代的方法学发展。回顾过去二十年的工作,Okonkwo等人(2025 (https://arxiv.org/html/2605.16319#bib.bib22))将ADNI描述为一个成熟的预后研究、生物标志物开发和跨队列转化基础设施。这些综述将ADNI置于现代纵向阿尔茨海默病研究的中心。 近年来,阿尔茨海默病预测的研究也已转向面向未来的进展建模。Marinescu等人(2021 (https://arxiv.org/html/2605.16319#bib.bib20))通过TADPOLE挑战赛明确推动了这一方向,该挑战赛围绕利用ADNI历史数据预测未来诊断和未来临床测量值来组织预测任务。Nguyen等人(2020 (https://arxiv.org/html/2605.16319#bib.bib21))证明,循环神经网络可以利用ADNI纵向数据预测未来的诊断、认知和脑室测量指标。Al Olaimat等人(2023 (https://arxiv.org/html/2605.16319#bib.bib2))更直接地聚焦于从轻度认知损害出发的进展预测,开发了用于预测未来阿尔茨海默病进展的深度模型。Zhang等人(2024 (https://arxiv.org/html/2605.16319#bib.bib37))利用纵向多源数据识别与预后相关的疾病进展模式。Lee等人(2024 (https://arxiv.org/html/2605.16319#bib.bib18))开发了一个用于预测痴呆转化的机器学习框架。这些研究表明,面向未来的阿尔茨海默病预测是可行且具有临床相关性的,同时也显示出目标定义和评估设计在很大程度上决定了模型需要学习的内容。 一个核心困难在于,当队列构建和结局定义在不同研究中存在差异时,报告的性能提升往往难以解释。结局的时间跨度、锚点状态、随访窗口、生物标志物处理方法和验证协议都会影响模型比较的意义。Grueso和Viejo-Sobera(2021 (https://arxiv.org/html/2605.16319#bib.bib11))记录了从轻度认知损害进展为阿尔茨海默病痴呆的研究中,纳入标准、特征构建和验证方法存在显著差异。Ahmadzadeh等人(2023 (https://arxiv.org/html/2605.16319#bib.bib1))对基于神经影像的转化预测也得出了类似结论,并强调了方法学上的持续不均衡。Singh等人(2024 (https://arxiv.org/html/2605.16319#bib.bib25))将面向预测的转化研究描述为一个快速发展的领域,但其目标定义和评估策略仍然差异很大。Kumar等人(2021 (https://arxiv.org/html/2605.16319#bib.bib15))综述了基于临床数据的机器学习研究,强调了数据来源、任务和验证设置的异质性。Malik等人(2024 (https://arxiv.org/html/2605.16319#bib.bib19))将同样的担忧扩展到更广泛的阿尔茨海默病预测文献。这些综述促使我们在研究设计中,在模型比较之前就明确锚点定义、预测时间跨度、终点、协变量历史以及参与者层面的评估规则。 终点尤为重要。先前的研究表明,临床痴呆评定量表总分和(CDR-SB)是阿尔茨海默病中一个有意义的纵向结局。Cedarbaum等人(2013 (https://arxiv.org/html/2605.16319#bib.bib6))认为CDR-SB适合作为主要结局,因为它结合了认知和功能衰退。Williams等人(2013 (https://arxiv.org/html/2605.16319#bib.bib35))表明CDR-SB能随时间追踪阿尔茨海默病进展,并携带具有临床意义的纵向信息。Andrews等人(2019 (https://arxiv.org/html/2605.16319#bib.bib4))研究了包括CDR-SB在内的阿尔茨海默病结局测量指标的临床意义变化。Jamalian等人(2023 (https://arxiv.org/html/2605.16319#bib.bib13))利用临床试验和ADNI数据对纵向CDR-SB轨迹进行了建模。这些研究使CDR-SB成为进展建模的自然结局家族。剩下的设计问题是,使用哪个版本的CDR-SB能给出最清晰的中等时间跨度进展目标。 在本研究使用的队列中,原始的24个月CDR-SB与锚点CDR-SB仍然强相关,而24个月CDR-SB变化值则较少仅由锚点值解释。这种经验对比促使本研究选择变化值作为主要响应。变化分数将预测目标定位在锚点之后的恶化情况,而不是未来评分中携带的基线疾病负担。 临床和生物标志物历史数据构成了第二个实际挑战。结构磁共振成像和脑脊液生物标志物对于阿尔茨海默病进展具有信息价值,但它们常常在确切的锚点访视时不可用。Lee等人(2019 (https://arxiv.org/html/2605.16319#bib.bib17))表明,结合不同数据来源可以改善阿尔茨海默病进展预测。Ding等人(2023 (https://arxiv.org/html/2605.16319#bib.bib9))进一步表明,纵向和多源信息能够改善从轻度认知损害到阿尔茨海默病的进展预测。Zhang等人(2024 (https://arxiv.org/html/2605.16319#bib.bib37))利用纵向多源数据研究疾病相关的进展模式,而Lee等人(2024 (https://arxiv.org/html/2605.16319#bib.bib18))使用多种数据源进行痴呆转化预测。这些研究支持使用临床和生物标志物历史数据。同时,严格的同次访视完全病例规则会大幅减少可用队列。对于中等时间跨度的纵向分析,历史上观察到的生物标志物信息在临床上仍然相关,其新近程度应该被表示出来,而不是被忽略。 第三个挑战是统计参考的选择。在基于锚点的纵向分析中,同一参与者可能贡献多个符合条件的轻度认知损害锚点。这产生了简单的锚点层面回归无法表示的受试者内依赖性。因此,带有参与者层面随机截距的混合效应模型对于本研究设计是一个更合适的统计比较对象。所提出的神经网络模型也基于这一原则构建:它在混合效应固定效应预测之外学习一个残差分量,而不是用黑盒序列模型替换纵向统计参考。 本研究正是基于这些考虑而构建的。我们利用ADNI的整合纵向表格,构建了一个基于参与者层面、以锚点为中心的24个月CDR-SB变化分析。每个带标签的样本锚定于一次参与者被诊断为轻度认知损害的访视,并且只包含截至该访视时观察到的信息,包括重复的临床评分和可用的生物标志物历史记录。结局定义在18-30个月窗口内最接近24个月的未来访视。为了以尊重重复测量的方式评估模型,我们将所提出的模型与一个带有参与者随机截距的混合效应统计基线,以及用于不规则临床时间序列的循环和Transformer比较模型进行了对比。 本文的贡献有三点。第一,它定义了一个临床可解释的中等时间跨度进展分析,基于24个月CDR-SB变化,具有明确的锚点选择、随访窗口构建、生物标志物历史处理和参与者层面评估。第二,它使用混合效应重复测量模型作为统计参考,这对于同一参与者的重复锚点更为合适。第三,它提出了一种残差间隙感知Transformer,将混合效应固定效应预测与基于不规则锚点前临床和生物标志物历史学习得到的Transformer残差相结合,并在自注意力机制中使用非负时间间隔惩罚。这种设计将预测任务、统计参考和神经网络架构与相同的纵向数据结构联系起来。在这个共享的定量CDR-SB变化分析框架下,所提模型在比较的模型家族中取得了重复随机种子下的最佳平均性能。 ## 2 相关工作 ### 2.1 纵向阿尔茨海默病预测与进展目标 近年来,阿尔茨海默病预测研究已越来越多地从当前状态分类转向明确预测未来的疾病状态和未来临床结局。Marinescu等人(2021 (https://arxiv.org/html/2605.16319#bib.bib20))通过组织TADPOLE挑战赛,围绕利用ADNI历史数据预测未来诊断和未来临床测量,在推动这一转变中发挥了重要作用。这项工作有助于阐明,一旦预测目标转向未来,队列定义、时间跨度选择和响应构建就成为科学问题的一部分。Nguyen等人(2020 (https://arxiv.org/html/2605.16319#bib.bib21))证明,循环神经网络可以利用ADNI纵向历史数据预测未来的诊断、认知和脑室测量指标。他们的工作表明,重复观察值包含超越单次锚点访视的预测信息,并且神经序列模型可以利用这种结构。他们的研究考虑了多个未来目标,这有助于确立可行性,同时也为如何定义一个临床可解释的中等时间跨度进展响应以进行直接模型比较留下了更聚焦的问题空间。 Al Olaimat等人(2023 (https://arxiv.org/html/2605.16319#bib.bib2))通过聚焦于未来访视中从轻度认知损害到阿尔茨海默病的进展,更接近本文考虑的临床场景。该工作将MCI进展直接置于模型开发的核心,并表明可以训练纵向深度模型用于未来进展预测。Zhang等人(2024 (https://arxiv.org/html/2605.16319#bib.bib37))利用纵向多源数据识别与预后相关的疾病进展模式。Lee等人(2024 (https://arxiv.org/html/2605.16319#bib.bib18))开发了一个针对痴呆转化预测的机器学习框架。Ding等人(2023 (https://arxiv.org/html/2605.16319#bib.bib9))表明,相对于限制更多的公式化方法,纵向和多源信息能够改善从MCI到阿尔茨海默病的进展预测。总之,这些研究表明纵向预测是可行且具有临床相关性的,同时也表明确切的终点定义仍然至关重要。 先前的综述强化了这一点。Grueso和Viejo-Sobera(2021 (https://arxiv.org/html/2605.16319#bib.bib11))记录了从轻度认知损害到阿尔茨海默病痴呆进展的研究中,纳入标准、特征构建和验证方法存在差异。Ahmadzadeh等人(2023 (https://arxiv.org/html/2605.16319#bib.bib1))对基于神经影像的转化预测也得出了类似结论。Singh等人(2024 (https://arxiv.org/html/2605.16319#bib.bib25))将面向预测的转化研究描述为一个快速发展的领域,但其目标定义和评估策略仍然存在显著差异。Kumar等人(2021 (https://arxiv.org/html/2605.16319#bib.bib15))和Malik等人(2024 (https://arxiv.org/html/2605.16319#bib.bib19))将同样的担忧扩展到更广泛的基于临床数据和机器学习的阿尔茨海默病预测研究。这些综述对本文至关重要,因为模型性能通常与队列限制、结局定义和验证设计密切相关。本研究通过在进行模型家族比较之前明确规定时间跨度、锚点状态、响应、协变量历史和参与者层面的分割规则来解决这一问题。
相似文章
利用深度学习进行具有不确定性意识的阿尔茨海默病进展纵向预测
本文提出了一种概率框架,用于阿尔茨海默病进展预测,该框架结合了有序诊断预测、多时间点轨迹生成和分解不确定性估计,采用 Temporal Fusion Transformer 编码器和自回归混合密度网络。在ADNI数据上,该模型优于基线,实现了接近标称的90%可信区间覆盖率,并提供了具有临床意义的不确定性信号。
DT-Transformer:一个在真实世界健康系统上进行疾病轨迹预测的基础模型
DT-Transformer是一个基础模型,在Mass General Brigham(MGB)健康系统的11家医院中,基于170万名患者的5710万条结构化EHR记录进行训练,在896个疾病类别的下一事件预测中展现出强大的区分能力。
在资源受限环境下利用常规数据重建和预测阿尔茨海默病患者疾病轨迹
本文介绍了GNOVA,一种GRU-神经常微分方程变分自编码器框架,用于从常规临床数据中重建和预测阿尔茨海默病的认知轨迹,无需昂贵的神经影像或生物标志物,在ADNI数据集上实现了低误差和不确定性估计。
BatteryMFormer:多层级学习用于电池退化轨迹预测
本文提出了BatteryMFormer,一种用于早期电池退化轨迹预测的多层级Transformer,它集成了老化条件感知解码、元退化模式记忆和双视角编码,以捕捉多层级退化结构和SOC局部变化,在四个电池领域上持续优于最先进的基线方法。
基于可解释机器学习与临床生物标志物的阿尔茨海默病早期检测:利用阿尔茨海默病神经影像学倡议(ADNI)数据集的多分类研究
本研究利用ADNI数据集中的八项临床生物标志物,构建了一个结合SHAP可解释性的XGBoost分类器,实现对阿尔茨海默病的三分类检测(认知正常、轻度认知障碍、AD),在留出测试集上达到宏观AUC 0.982、Cohen's kappa 0.909。SHAP分析表明,CDR整体评分是认知正常和轻度认知障碍的主导预测因子,而CDR-SB与MMSE共同驱动了AD的分类判别。