基于脑血流速度和机器学习算法的脑血管年龄预测

arXiv cs.AI 2026/05/19 04:00 论文

摘要

本文使用基于经颅多普勒特征训练的机器学习模型预测脑血管年龄，发现中风和阿尔茨海默病等脑疾病患者存在加速老化现象。

arXiv:2605.16969v1 公告类型: 新摘要：根据生理功能定义血管年龄已成为分类和追踪实际年龄的广泛研究焦点之一。经颅多普勒（TCD）是一种测量大脑主要动脉中脑血流速度的方法。本研究旨在利用从TCD提取的特征来估算实际年龄，并评估患有各种脑疾病的受试者的加速老化情况。我们预测，当使用由健康受试者训练的各种回归模型进行测试时，患有各种脑疾病的受试者会表现出加速的脑血管老化。使用颅内压形态分析和聚类（MOCAIP）算法分析了168名健康受试者和277名患病受试者的双侧大脑中动脉TCD记录。MOCAIP生成的特征和心率变异性特征被用作回归模型的输入特征，以预测脑血管年龄。66名急性中风受试者、27名中风后受试者、26名阿尔茨海默病受试者、23名轻度认知障碍受试者和135名已确诊受试者接受了机器学习模型的测试，以评估加速的脑血管年龄。经过训练的模型平均预测健康受试者的脑血管年龄比其实际年龄高出3.69岁。患有不同疾病的受试者表现出不同程度的年龄加速。健康受试者和患病受试者表现的差异表明，使用TCD生成的特征在评估加速的脑血管老化时可能具有相关性。此外，已观察到不平衡数据集会影响基于机器学习的脑龄预测模型的性能。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:38

# 基于脑血流速度和机器学习算法的脑血管年龄预测
来源：https://arxiv.org/html/2605.16969
Anni Zhao 数据科学中心，Nell Hodgson Woodruff护理学院，埃默里大学，佐治亚州亚特兰大 30322，美国 anni\.zhao@emory\.edu & Alex Bateh 肾脏病科，医学系，阿拉巴马大学伯明翰分校，阿拉巴马州伯明翰 35294，美国 abateh@uab\.edu & Tyler Baldridge 神经病学系，医学院，堪萨斯大学医学中心，堪萨斯州堪萨斯城 66103，美国 tbaldridge@kumc\.edu & Sandra Billinger 神经病学系，医学院，堪萨斯大学医学中心，堪萨斯州堪萨斯城 66103，美国 sbillinger@kumc\.edu & Xiao Hu 数据科学中心，Nell Hodgson Woodruff护理学院，埃默里大学，佐治亚州亚特兰大 30322，美国 xiao\.hu@emory\.edu

###### 摘要

根据生理功能定义血管年龄已成为广泛研究的焦点之一，旨在对实际年龄进行分类和追踪。经颅多普勒（TCD）是一种测量供应人脑的主要动脉中脑血流速度的方法。本研究旨在利用从TCD中提取的特征来估算实际年龄，并评估患有各种脑部疾病的受试者的加速衰老情况。我们预测，当使用由健康受试者训练的各种回归模型进行测试时，患有各种脑部疾病的受试者将表现出加速的脑血管衰老。分析了168名健康受试者和277名患有双侧大脑中动脉TCD记录的疾病受试者，使用了形态学分析与颅内压聚类（MOCAIP）算法。将MOCAIP生成的特征和心率变异性特征作为回归模型的输入特征，用于预测脑血管年龄。对66名急性卒中受试者、27名卒中后受试者、26名阿尔茨海默病受试者、23名轻度认知障碍受试者和135名长期随访受试者进行了机器学习模型测试，以评估加速的脑血管年龄。经过训练的模型平均预测健康受试者的脑血管年龄比实际年龄高3.69岁。不同疾病状态的受试者表现出不同程度的年龄加速。健康受试者和疾病受试者表现的差异表明，使用TCD生成的特征在评估加速脑血管衰老方面可能具有相关性。此外，已观察到不平衡数据集会影响基于机器学习的脑龄预测模型的性能。

*关键词*脑血管年龄预测⋅\cdot脑血流速度⋅\cdot颅内压形态学分析与聚类⋅\cdot脑血管衰老

## 1 引言

脑血管衰老反映了大脑血管系统随时间发生的渐进性结构和功能变化，它与认知衰退、卒中风险和其他神经系统疾病密切相关。因此，准确预测脑血管年龄可以提供一种有意义的生物标志物，用于评估超越实际年龄的脑血管健康。此外，可靠的机器学习模型在评估治疗效果中起着重要作用。近年来，机器学习算法已成为脑血管年龄预测的强大工具，因为它们能够从生理信号[21 (https://arxiv.org/html/2605.16969#bib.bib18),34 (https://arxiv.org/html/2605.16969#bib.bib19)]、影像[11 (https://arxiv.org/html/2605.16969#bib.bib17)]和多模态数据集[4 (https://arxiv.org/html/2605.16969#bib.bib20)]中捕捉复杂的非线性关系。通过学习与血管衰老相关的模式，这些方法具有在早期识别加速血管衰老个体的潜力，支持个性化风险评估并改进预防干预措施。因此，使用机器学习进行脑血管年龄预测已成为精准医学和计算神经科学中的一个有前景的方向。各种算法和形态已被用于脑龄预测，包括卷积神经网络[31 (https://arxiv.org/html/2605.16969#bib.bib22)]、皮层结构[25 (https://arxiv.org/html/2605.16969#bib.bib23)]和隐马尔可夫模型[37 (https://arxiv.org/html/2605.16969#bib.bib24)]。此外，还有一些专门用于脑龄预测的算法特性，如去中心化算法[3 (https://arxiv.org/html/2605.16969#bib.bib25)]和极限学习机框架[16 (https://arxiv.org/html/2605.16969#bib.bib26)]。然而，在使用机器学习模型的研究中，模型性能存在很大的异质性。主要而言，机器学习模型将首先在健康受试者的标记数据上进行训练，然后用于脑疾病患者的脑龄预测。关于2013年至2024年使用机器学习模型进行脑血管年龄预测的全面综述见[18 (https://arxiv.org/html/2605.16969#bib.bib16)]。另一篇聚焦于英国生物银行进行脑龄预测的综述见[19 (https://arxiv.org/html/2605.16969#bib.bib21)]。

现有研究大多集中于使用基于MRI的特征进行脑血管年龄预测。基于MRI的特征已显示出与脑血管年龄的显著关联。一个完善的脑血管年龄预测模型DeepBrainNet已经使用大量MRI扫描进行了训练[2 (https://arxiv.org/html/2605.16969#bib.bib27)]。从各种生理信号中提取的特征也被用于通过机器学习算法进行脑血管年龄预测。最近的研究表明，与年龄相关的血管和神经生理变化可以通过无创生理信号进行量化，包括经颅多普勒脑血流速度[27 (https://arxiv.org/html/2605.16969#bib.bib30)]、近红外光谱衍生的脑搏动、光电容积描记图[28 (https://arxiv.org/html/2605.16969#bib.bib28)]和脑电图[10 (https://arxiv.org/html/2605.16969#bib.bib31),14 (https://arxiv.org/html/2605.16969#bib.bib32)]。这些发现支持了开发机器学习模型以从脑血流动力学信号特征估计脑血管年龄的可行性。光电容积描记图（PPG）被用于使用深度卷积神经网络进行脑血管年龄预测[34 (https://arxiv.org/html/2605.16969#bib.bib19)]。研究已表明，人工智能衍生的光电容积描记图（AI-PPG）年龄可作为心血管健康的生物标志物[28 (https://arxiv.org/html/2605.16969#bib.bib28)]。首次设计了一种分布感知损失函数，以减少由不平衡年龄分布引起的偏差。然而，在脑血管年龄预测中，对不平衡分布的关注有限。在本文中，采用TCD测量的脑血流速度及其提取的特征进行脑血管年龄预测。已有研究表明脑血流速度是一种重要的与衰老相关的生理信号。从脑血流速度中提取的形态学特征与年龄和神经心理学表现密切相关[29 (https://arxiv.org/html/2605.16969#bib.bib29),27 (https://arxiv.org/html/2605.16969#bib.bib30)]。此外，研究了数据集不平衡的影响，以强调为脑血管年龄预测仔细选择训练和测试数据集的重要性。

本文组织如下。第2节 (https://arxiv.org/html/2605.16969#S2)说明了用于训练机器学习模型的数据集。第3节 (https://arxiv.org/html/2605.16969#S3)展示了特征提取和机器学习算法。第4节 (https://arxiv.org/html/2605.16969#S4)展示了使用各种机器学习算法进行脑血管年龄预测的结果。第5节 (https://arxiv.org/html/2605.16969#S5)对论文进行了总结。

## 2 数据集

目前，我们主要使用来自堪萨斯大学的数据集，包括168名健康受试者和277名患有各种疾病的受试者。其中有26名阿尔茨海默病（AD）患者、23名轻度认知障碍（MCI）患者、66名急性卒中患者、27名卒中后患者，以及135名长期随访受试者。长期随访受试者是指有脑疾病家族史、未来可能发展为脑疾病风险较高的个体。目前，这些长期随访受试者未表现出任何与脑疾病相关的明显模式。健康受试者和疾病受试者的分布如图1 (https://arxiv.org/html/2605.16969#S2.F1)至图3 (https://arxiv.org/html/2605.16969#S2.F3)所示。

参见图注图1：健康受试者及患有阿尔茨海默病和MCI疾病的受试者数据分布。

参见图注图2：健康受试者及患有急性卒中和卒中后疾病的受试者数据分布。

参见图注图3：健康受试者及长期随访受试者数据分布。

如图1所示，我们可以看到对于健康受试者，大多数数据集分布在[20, 30]和[60, 80]的年龄范围内，而对于各种疾病受试者，大多数数据集分布在50岁以上。已观察到健康受试者和疾病受试者的年龄分布高度不平衡。在这种情况下，不平衡的性质可能影响机器学习模型的性能。为了进一步提高模型性能并确保年龄分布一致性，选择50岁以上的健康受试者作为训练数据集，因为大多数疾病受试者也超过50岁。拆分后的训练和测试健康受试者的分布如图4 (https://arxiv.org/html/2605.16969#S2.F4)所示。75%的健康受试者作为训练数据集，25%的健康受试者作为测试数据集。

参见图注图4：用于机器学习算法的训练和测试健康受试者的数据分布。

## 3 算法

在本节中，详细说明本文采用的特征提取算法和机器学习算法。采用形态学聚类与连续颅内压分析（MOCAIP）算法从脑血流速度中提取形态学特征[15 (https://arxiv.org/html/2605.16969#bib.bib1)]。特征提取后，提取的特征作为机器学习模型的输入，年龄作为模型的输出。

### 3.1 特征提取算法

#### 3.1.1 预分析

MOCAIP能够从搏动信号中提取主波。在MOCAIP工具箱中，主波是从一段时间窗口内的一组脉搏中选取的代表性脉搏波形，因为它能最好地反映稳定、典型的脉搏形态，同时减少噪声和伪迹。在此，我们分析并比较了健康受试者不同年龄组的平均主波，如图5(a) (https://arxiv.org/html/2605.16969#S3.F5.sf1)所示。已观察到随着年龄增加，主波振幅降低，波形复杂性增加。这可能是由于血管硬化、波反射和脑顺应性降低所致[5 (https://arxiv.org/html/2605.16969#bib.bib33)]。

此外，健康受试者与疾病受试者在相同年龄组[20, 40]的平均主波比较如图5(b) (https://arxiv.org/html/2605.16969#S3.F5.sf2)至图5(d) (https://arxiv.org/html/2605.16969#S3.F5.sf4)所示。图5(b) (https://arxiv.org/html/2605.16969#S3.F5.sf2)显示了健康受试者和急性卒中受试者在年龄组[20, 40]的平均主波比较。图5(c) (https://arxiv.org/html/2605.16969#S3.F5.sf3)显示了健康受试者和卒中后受试者的比较。图5(d) (https://arxiv.org/html/2605.16969#S3.F5.sf4)显示了健康受试者和长期随访受试者的比较。在急性卒中和长期随访组中观察到较高的脑血流速度振幅和更多的波形峰值。这些波形变化可能反映了异常的脑血管血流动力学，因为TCD衍生的脑血流速度波形已被证明能提供与脑血管闭塞、狭窄和病理性波形形态相关的信息[35 (https://arxiv.org/html/2605.16969#bib.bib34)]。潜在的生理机制包括卒中后脑自动调节功能受损或异质性、脑灌注的代偿性变化以及通过侧支通路的血流增加[24 (https://arxiv.org/html/2605.16969#bib.bib35)]。此外，血管狭窄、紊乱或湍流以及狭窄血管附近的异常波传播可能导致搏动性脑血流速度信号中出现额外峰值[17 (https://arxiv.org/html/2605.16969#bib.bib36)]。

参见图注(a) 健康受试者不同年龄组的平均主波比较。

参见图注(b) 年龄组[20,40]中健康受试者与急性卒中受试者的平均主波比较。

参见图注(c) 年龄组[20,40]中健康受试者与卒中后受试者的平均主波比较。

参见图注(d) 年龄组[20,40]中健康受试者与长期随访受试者的平均主波比较。

图5：年龄组[20,40]中健康受试者与不同疾病组的平均主波比较。

#### 3.1.2 特征提取

图6 (https://arxiv.org/html/2605.16969#S3.F6)展示了总体数据处理流程，包括数据选择、信号分割和特征提取。445条记录通过以下程序选出：(1)数据完整性和质量检查，(2)特征有效性检查。在数据完整性和质量检查之后，使用MOCAIP工具箱将每次记录的信号分割成每条包含360次搏动的记录。每次记录至少包含360次搏动。然后通过验证提取的MOCAIP特征的有效性手动检查每条记录。共有128个特征，一些代表性特征如图6 (https://arxiv.org/html/2605.16969#S3.F6)右侧所示。所有数据集，无论是有创还是无创，均同步采集并以400 Hz重采样。对于有ECG的记录，使用通用生物医学信号处理工具箱进行QRS检测以计算R-R间期。信号分割过程如中间图所示。右侧的图和表显示了MOCAIP工具箱的特征提取过程。除了从MOCAIP工具箱提取的128个特征外，体重指数（BMI）和从ECG信号中提取的心率变异性特征也作为特征向量的一部分用于机器学习算法。总共从TCD和ECG信号中提取了137个数值特征。MOCAIP中计算了各种数学指标。图6 (https://arxiv.org/html/2605.16969#S3.F6)右侧显示了一些代表性特征，包括从最小点到地标的振幅、每个上升沿的斜率、脉搏的平均绝对曲率以及地标的绝对曲率。在将MOCAIP应用于健康受试者和疾病受试者后，通过特征均值偏差获得组间差异最大的前10个特征。

相似文章

基于小波图像变换和谱流匹配的功能磁共振时间序列生成用于脑疾病识别

arXiv cs.LG

本文提出DSFM，一种新颖的生成框架，利用小波分解和谱流匹配合成逼真的fMRI时间序列，用于脑疾病识别，解决了数据稀缺和非平稳性挑战。

预测中期阿尔茨海默病进展：基于ADNI临床和生物标志物历史数据实现24个月CDR-SB变化的残差间隙感知变换器

arXiv cs.LG

本文提出了一种残差间隙感知变换器，将混合效应统计参考与基于变换器的残差学习相结合，利用ADNI临床和生物标志物历史数据预测24个月CDR-SB变化，在均方误差和相关性上均优于基线模型。

Early Detection of Alzheimer's Disease Using Explainable Machine Learning on Clinical Biomarkers: A Multi-Class Classification Study Using the Alzheimer's Disease Neuroimaging Initiative (ADNI) Dataset

arXiv cs.AI

This study develops an XGBoost classifier using SHAP explainability on eight clinical biomarkers from the ADNI dataset to achieve three-class Alzheimer's disease detection (normal cognition, MCI, AD), reaching a macro AUC of 0.982 and Cohen's kappa of 0.909 on the held-out test set. SHAP analysis identifies CDR Global as the dominant predictor for NC and MCI, while CDR-SB and MMSE together drive AD classification.

MIT FINGERS-7B：首款用于阿尔茨海默病预防的多组学AI模型

Reddit r/singularity

MIT发布了FINGERS-7B，这是一个拥有70亿参数的多组学基础模型，基于3万人的数据进行训练，旨在提前数年预测阿尔茨海默病的风险。该模型可通过AD Workbench访问，并附有发布在OpenReview上的研究论文。

教导大脑自我发现

ML at Berkeley

这篇博客探讨了机器学习与神经科学的交叉领域，特别关注利用多元分类技术分析神经影像数据，以理解大脑功能和行为。