DT-Transformer:一个在真实世界健康系统上进行疾病轨迹预测的基础模型

arXiv cs.LG 论文

摘要

DT-Transformer是一个基础模型,在Mass General Brigham(MGB)健康系统的11家医院中,基于170万名患者的5710万条结构化EHR记录进行训练,在896个疾病类别的下一事件预测中展现出强大的区分能力。

arXiv:2605.14227v1 Announce Type: new Abstract: 准确的疾病轨迹预测对于早期干预、资源分配和改善长期预后至关重要。虽然电子健康记录(EHR)在临床环境中提供了患者健康的丰富纵向视图,但基于精选研究队列训练的模型可能无法反映常规部署场景,而基于单一医院数据集训练的模型仅能捕捉到每位患者轨迹的片段。这凸显了利用大型多医院健康系统进行训练和验证的重要性,以更好地反映真实世界的临床复杂性。在这项工作中,我们开发了DT-Transformer,这是一个基础模型,在Mass General Brigham(MGB)的170万患者的5710万条结构化EHR记录上进行训练,涵盖11家医院和广泛的门诊诊所网络。DT-Transformer在留出验证和前瞻性验证中都展现出强大的区分能力。下一事件预测在896个疾病类别中实现了中位年龄和性别分层AUC为0.871,所有类别均超过AUC 0.5。这些结果支持将健康系统规模训练作为开发适用于真实世界临床预测的基础模型的途径。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:28

# 1 引言
Source:https://arxiv.org/html/2605.14227
DT\-Transformer:基于真实世界健康系统的疾病轨迹预测基础模型

Yunying Zhu¹,²,\*Andrew R Weckstein¹,²,\*Kueiyu Joshua Lin¹Jie Yang¹,³,⁴,⁵

¹ 布莱根妇女医院、哈佛医学院药物流行病学与药物经济学部,波士顿,马萨诸塞州,美国

² 哈佛大学陈曾熙公共卫生学院,波士顿,马萨诸塞州,美国

³ 哈佛大学自然与人工智能研究所,剑桥,马萨诸塞州,美国

⁴ 布罗德研究所,剑桥,马萨诸塞州,美国

⁵ 哈佛大学数据科学计划,剑桥,马萨诸塞州,美国

\*这些作者对本文的准备工作贡献相同。通讯作者:Jie Yang,博士([email protected]),布莱根妇女医院与哈佛医学院药物流行病学与药物经济学部,75 Francis St,波士顿,马萨诸塞州 02115,美国

###### 摘要

准确的疾病轨迹预测对早期干预、资源分配和改善长期预后至关重要。虽然电子健康记录(EHRs)提供了患者健康在临床环境中的丰富纵向视角,但在精心设计的研究队列上训练的模型可能无法反映常规部署环境,而在单一医院数据集上训练的模型则只能捕捉每位患者轨迹的片段。这凸显了利用大型、多医院健康系统进行训练和验证的重要性,从而更好地反映真实世界的临床复杂性。在本研究中,我们开发了DT\-Transformer,这是一个基础模型,在来自麻省总医院布莱根(MGB)的 5710 万条结构化 EHR 条目上进行训练,涵盖 170 万名患者,涉及 11 家医院和广泛的诊所网络Desai 等人 (2021 (https://arxiv.org/html/2605.14227#bib.bib7))。DT\-Transformer 在留出验证和前瞻性验证中均实现了强大的区分能力。下一事件预测在 896 个疾病类别中获得中位年龄性别分层 AUC 为 0.871,所有类别的 AUC 均超过 0.5。这些结果支持将健康系统规模的训练作为实现适用于真实世界临床预测的基础模型的路径。

预测个体患者的疾病发展是医学领域的一个长期目标,需要能够从多年收集的纵向数据中学习的模型。结构化的电子健康记录(EHRs)捕捉了数百万患者的常规护理信息,为此任务提供了丰富的数据源。受大型语言模型(LLMs)成功的启发,研究人员已将基于 Transformer 的架构Vaswani 等人 (2023 (https://arxiv.org/html/2605.14227#bib.bib23))应用于此场景,将患者历史视为有序序列,并学习疾病进展的潜在表征。这些努力范围从疾病特异性预测器Men 等人 (2021 (https://arxiv.org/html/2605.14227#bib.bib12)); Placido 等人 (2023 (https://arxiv.org/html/2605.14227#bib.bib13)); Mao 等人 (2023 (https://arxiv.org/html/2605.14227#bib.bib16)); Yang 等人 (2023 (https://arxiv.org/html/2605.14227#bib.bib25)); Rasmy 等人 (2021 (https://arxiv.org/html/2605.14227#bib.bib15))到预测时间至事件结局的基础模型Steinberg 等人 (2024 (https://arxiv.org/html/2605.14227#bib.bib28))、联合建模数百种疾病Shmatko 等人 (2025 (https://arxiv.org/html/2605.14227#bib.bib10)) 或模拟完整轨迹Renc 等人 (2024 (https://arxiv.org/html/2605.14227#bib.bib11)); Makarov 等人 (2025 (https://arxiv.org/html/2605.14227#bib.bib26))。其中,Delphi\-2M 引入了生成式预训练 Transformer(GPT)式架构,对多种疾病条件下的诊断时机进行建模,支持下一事件预测和自回归轨迹模拟Shmatko 等人 (2025 (https://arxiv.org/html/2605.14227#bib.bib10))。

尽管取得了这些进展,但用于训练和评估这些模型的数据源限制了对其在常规护理中实用性的结论。现有的轨迹模型主要是在精心设计的研究队列或单一医院 EHR 中开发的。例如,Delphi\-2M 是在 UK Biobank 记录上训练的,这反映了一个高度选择的人群Fry 等人 (2017 (https://arxiv.org/html/2605.14227#bib.bib14))和研究导向的数据收集,并不反映常规临床实践。在单一医院 EHR 上训练的模型,如 ETHOSRenc 等人 (2024 (https://arxiv.org/html/2605.14227#bib.bib11)); Johnson 等人 (2023 (https://arxiv.org/html/2605.14227#bib.bib24)),仅捕捉单个机构的护理,并遗漏了其他地方发生的进展。这些差距促使在大型、多场景健康系统数据上进行评估,这些数据能够捕捉跨护理环境和更长时间范围内的真实世界轨迹。

在本工作中,我们引入了 DT\-Transformer,这是一个适应于麻省总医院布莱根(MGB)纵向结构化 EHR 数据的疾病轨迹预测基础模型。DT\-Transformer 在来自 MGB 的 5710 万条结构化诊断事件上进行训练,MGB 是一个大型综合健康系统,涵盖 11 家医院和数百家附属诊所Desai 等人 (2021 (https://arxiv.org/html/2605.14227#bib.bib7))。DT\-Transformer 在近 900 种疾病上实现了强大的疾病预测能力,展示了 Transformer 框架在真实世界 EHR 环境中的可迁移性。我们发现,与在较稀疏的生物库式数据上训练的模型相比,近期区分能力的衰减更为迅速,这可能反映了研究与现实世界设置之间数据密度和观察间隙的结构性差异。我们还发现,扩大训练以包含更丰富的诊断历史并未改善性能,这表明更长的上下文并不自动转化为更好的预测信号。

## 2 方法

### 2.1 研究队列与数据来源

我们使用了来自麻省总医院布莱根(MGB)的 2000–2024 年纵向结构化 EHR 数据,MGB 是一个大型非营利综合健康系统,涵盖 11 家医院和 200 多家门诊诊所Desai 等人 (2021 (https://arxiv.org/html/2605.14227#bib.bib7))(见附录A.1 (https://arxiv.org/html/2605.14227#A1.SS1))。数据集包括诊断记录(国际疾病分类,ICD\-9 和 ICD\-10)、基本人口统计学信息、吸烟和饮酒状态测量值以及死亡记录日期。为进行模型开发,患者历史截至于 2022\-12\-31,留下 1,785,346 名具有有效非空历史的患者。我们留出 99,903 名患者用于验证,并使用剩余的 1,685,443 名患者进行训练。我们还进行了一项前瞻性评估以近似真实世界部署。在 2022 年底存活的患者中,有 1,524,783 名,我们将截至 2022\-12\-31 的记录用作模型输入的历史上下文,将 2023 年作为时间间隔期,并将 2024 年的首次发病疾病事件作为前瞻性评估目标(图1 (https://arxiv.org/html/2605.14227#S2.F1)A)。

参见图注图 1: (A) 数据、(B) 输入序列格式和 (C) 改编的 Delphi 风格 GPT 架构概述
### 2.2 疾病轨迹表示

我们将每位患者的结构化 EHR 历史转换为按时间排序的 ICD 诊断事件序列(图1 (https://arxiv.org/html/2605.14227#S2.F1)B, 附录A.1 (https://arxiv.org/html/2605.14227#A1.SS1))。对于主要模型,同一 ICD 类别的重复诊断被折叠为最早记录的发作,因此每种疾病在每位患者的时间线上最多出现一次。诊断令牌与患者诊断时的年龄(以天为单位)配对。死亡事件在记录的死亡年龄处附加。性别、吸烟和饮酒状态作为时不变协变量输入,但不作为预测目标(附录A.1 (https://arxiv.org/html/2605.14227#A1.SS1))。遵循 Delphi 的方法,在随机间隔插入“无事件”占位令牌,以表示无记录事件的时间流逝,使模型能够捕捉跨年龄的基线风险变化。由此产生的令牌词汇表由 1,375 个独特的 ICD 类别以及性别、吸烟状态、饮酒状态、死亡和“无事件”状态的令牌组成。

### 2.3 改编的 Delphi 风格 Transformer 模型

DT\-transformer 采用 Delphi 风格Shmatko 等人 (2025 (https://arxiv.org/html/2605.14227#bib.bib10))的生成式疾病轨迹框架,用于根据患者先前的临床历史预测未来事件,并适配于 MGB EHR 数据(图1 (https://arxiv.org/html/2605.14227#S2.F1)C)。由于 EHR 事件发生在连续时间轴上,该框架使用连续年龄的正弦编码表示时间位置,而不是标准位置编码。在每个预测位置,模型产生两个输出:疾病和死亡令牌上的下一事件分布,以及通过指数等待时间分布建模的时间至事件预测。这两个输出共同使模型能够估计每个疾病类别的未来事件发生率。因果注意力掩码和同时时间掩码确保预测仅基于先前事件。训练目标结合了下一事件预测的交叉熵损失与观察到的下一事件时间的负对数似然。无事件令牌和时不变协变量令牌作为输入上下文,但排除在预测损失之外。主要模型使用固定长度上下文窗口,包含 93 个令牌,包括三个静态协变量令牌和最多 90 个先前的诊断令牌。该模型约有 220 万个参数,初始学习率为 \(6\times 10^{-4}\)。额外的架构和优化细节见附录A.2 (https://arxiv.org/html/2605.14227#A1.SS2)。

### 2.4 模型评估

#### 2.4.1 留出验证评估

我们评估了模型在留出验证集中预测广泛疾病谱上未来首次发病诊断事件的能力。模型性能通过年龄和性别分层的受试者工作特征曲线下面积(AUC)进行评估,涵盖多个预测时间范围(下一事件、6 个月、1 年、2 年和 3 年)。遵循 Delphi,我们丢弃了一些 ICD 结局和稀疏的年龄-性别分层以减少不稳定性(附录A.3 (https://arxiv.org/html/2605.14227#A1.SS3))。对于每种疾病,病例患者是后来首次记录到目标疾病发作的患者,对照患者是未发生的患者。预测样本按性别和从 20 到 90 岁的 5 年年龄区间分层,并在每个年龄-性别分层内计算疾病特异性 AUC,然后在各分层间取平均值。我们还与每种疾病类别的基于年龄和性别的流行病学基线进行了比较。

表 1:按分割的数据集特征。训练集和验证集总结至 2022\-12\-31;前瞻性测试总结了 2024 年首次发病目标,对象为 2022\-12\-31 存活的患者。统计量训练集验证集前瞻性测试患者数1,685,44399,9031,524,783诊断事件53,692,3613,161,8772,659,377年龄*,中位数 (IQR)68.0 (43.4–79.3)68.1 (43.5–79.3)65.4 (39.6–77.1)病史长度†,中位数 (IQR)6.1 (0.9–13.4)6.1 (0.9–13.4)—每患者诊断数‡,中位数 (IQR)18.0 (6.0–44.0)18.0 (6.0–44.0)—女性56.3%56.1%57.3%

*年龄定义为 2022\-12\-31 时的年龄,或更早的死亡日期。†每位患者首次到最后一次记录疾病事件之间的时间。‡每位患者模型词汇表中独特的首次发作 ICD\-10 代码数量。†,‡不适用于前瞻性测试列,该列仅总结 2024 年的首次发病目标。

#### 2.4.2 前瞻性评估

在前瞻性评估队列的 1,524,783 名患者中,使用截至 2022\-12\-31 的疾病事件作为模型上下文,预测从 2024\-01\-01 至 2024\-12\-31 记录的首发病事件。前瞻性 AUC 使用与2.4.1 (https://arxiv.org/html/2605.14227#S2.SS4.SSS1)部分相同的框架计算。还通过比较预测和观察到的疾病发生率来评估校准性能。

### 2.5 复发诊断扩展

主要 Delphi 风格模型仅使用每种疾病的首次记录发作表示该条件,丢弃了重复诊断的信息。我们假设保留复发信号作为输入上下文可以提供关于纵向轨迹和不断演变的共病模式的额外信息,可能改善对未来疾病发作的预测。为了验证这一点,我们训练了一个单独的全发作模型变体(allOcc),其中先前诊断条件的后续记录被保留为输入上下文。输入诊断事件通过加法标志嵌入标记为新发或复发,并且上下文窗口被延长以容纳更长的输入序列(附录A.2 (https://arxiv.org/html/2605.14227#A1.SS2))。复发事件被排除在预测损失之外,因此模型仍然被训练以预测未来的首次发作事件,而不是重复事件。

## 3 实验与结果

### 3.1 跨疾病谱的下一事件预测

DT\-Transformer 预测了 ICD 疾病类别范围内的下一事件结局。在验证数据中,所有 896 种疾病的中位年龄和性别分层 AUC 为 0.871(IQR,0.837–0.898)(图2 (https://arxiv.org/html/2605.14227#S3.F2))。所有疾病特异性 AUC 均超过 0.5,表明预测信号在全部可评估结局中保留。相对于年龄性别组成的基线,我们的模型在 96% 的疾病中表现更好,中位 AUC 提升为 +0.214(0.871 对比 0.657)。

参见图注图 2:留出验证集中每种疾病按 ICD 章节分组的平均年龄和性别分层 AUC 值。上方面板显示绝对 AUC,下方面板显示相对于人口统计学基线的 AUC 差异。
### 3.2 跨预测时间范围的性能

为了评估预测信号是否超出下一事件设置(中位数 42 天),我们在五个时间范围上评估了模型性能,从下一事件到未来三年(图3 (https://arxiv.org/html/2605.14227#S3.F3))。模型在所有时间范围内均保持高于人口统计学基线的区分能力,中位 AUC 在一年内保持在 0.75 以上,在三年时保持在 0.70 以上。人口统计学基线在所有时间范围内几乎平坦(0.650–0.657),这表明 DT\-Transformer AUC 的下降反映了诊断历史信号的衰减。在较长的时间范围内四分位距增大(下一事件为 0.060,三年时为 0.120),表明长期可预测性变得越来越具有疾病特异性。

### 3.3 前瞻性评估性能

在前瞻性评估中,模型在 898 种可评估疾病中的中位 AUC 为 0.713,在 80% 的疾病中优于人口统计学基线,表明区分性能泛化到训练中未遇到的未来时间段(附录A.4.2 (https://arxiv.org/html/2605.14227#A1.SS4.SSS2))。在校准分析中,预测的年发病率在几个数量级上追踪了观察到的发病率(附录A.4.2 (https://arxiv.org/html/2605.14227#A1.SS4.SSS2)),表明模型导出的发病率与观察到的发病率尺度保持对应。

参见图注

图 3:跨预测时间范围的中位年龄和性别分层 AUC 值

相似文章

训练大型语言模型预测临床事件

arXiv cs.LG

本文通过将按时间排序的临床笔记转换为预测示例,将前瞻性学习扩展到临床事件预测。在120B模型上使用LoRA适配器改善了校准性能,并在留出问题上优于GPT-5。