基于数字孪生模拟的治疗响应优化临床决策支持AI系统

arXiv cs.AI 论文

摘要

本文提出了一种在线自适应的临床决策支持AI系统,该系统整合了治疗效果估计、数字孪生模拟和强化学习,以在安全、临床医生监督的方式下推荐治疗方案,并在合成模拟器和TCGA卵巢癌数据集上进行了验证。

arXiv:2606.17405v1 Announce Type: new 摘要:临床决策支持AI系统(CDSASs)必须实时适应不断变化的患者状况,同时严格遵守安全约束。我们提出了一种在线自适应框架,该框架整合了治疗效果(TE)估计以量化临床获益、患者数字孪生(DT)以模拟治疗轨迹,以及强化学习(RL)用于序贯决策。AI系统最初基于历史医疗记录进行训练,并在持续学习循环中运行。为确保安全性,一个基于规则的模块监测生命体征并阻止禁忌治疗。内部模型存在强烈不一致的案例会被标记以供临床医生审查,在我们的实验中通过预训练的结果模型进行模拟。我们使用合成临床模拟器和来自癌症基因组图谱(TCGA)的真实世界卵巢癌数据集验证了我们的框架。在模拟和临床环境中,与标准计算基线相比,我们的方法在推荐治疗方案方面表现出更高的有效性和稳定性。此外,AI系统保持低延迟,并在我们的实验验证中仅对少数案例需要专家咨询,展示了其作为安全、临床医生监督的个性化医疗工具的潜力,且通过实际使用持续改进。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:36

# 基于数字孪生仿真的治疗效果优化临床决策支持AI系统
来源:https://arxiv.org/html/2606.17405
秦鑫宇†,Anil K. Sood‡,于瑞恒†,Sara Corvigno‡,Elaine Stur‡,王璐†,††,∗

###### 摘要

临床决策支持AI系统必须实时适应不断变化的患者状况,同时遵守严格的安全约束。我们提出一种在线自适应框架,该框架集成了治疗效果估计以量化临床获益、患者数字孪生以模拟治疗轨迹,以及强化学习以进行序贯决策。该AI系统首先基于历史医疗记录进行训练,并在持续学习循环中运行。为确保安全,一个基于规则的模块监测生命体征并阻止禁忌治疗方案。内部模型存在强烈分歧的病例将被标记以供临床医生审查,在我们的实验中通过预训练的结果模型进行模拟。我们使用合成临床模拟器和来自癌症基因组图谱的真实世界卵巢癌数据集验证了该框架。在模拟和临床环境中,我们的方法在推荐治疗方案方面相比标准计算基线均展现出更优的有效性和稳定性。此外,在我们的实验验证中,该AI系统保持了低延迟,并且仅对少数病例需要专家咨询,展示了其作为安全、临床医生监督下的个性化医疗工具的潜力,并可通过实际使用持续改进。

## I. 引言

临床决策是序贯发生的,并涉及风险[Sutton et al., 1998]。离线学习的策略在部署时可能有效,但数据分布偏移和有限的覆盖范围会随着条件变化而降低其价值[Levine et al., 2020]。我们的目标是构建一个在线自适应的临床决策支持工具,该工具在使用过程中学习,同时尊重安全性。治疗效果估计作为临床获益的主要指标,确保AI系统优先推荐那些基于清晰反事实参照为患者带来最大循证改善的干预措施[Hernan and Robins, 2020]。患者数字孪生提供了一个虚拟环境,用于模拟患者反应并根据实时数据预测未来潜在的健康状态[Meijer et al., 2023]。强化学习通过随时间建模不同临床行为的相对价值,实现长期治疗规划[Sutton et al., 1998; Chen et al., 2022]。

我们将这些部分链接成一个单一的AI系统,专注于带有护栏的在线学习。首先,该AI系统使用历史医疗记录进行离线训练阶段,确保其推荐保持在既定临床实践范围内[Fujimoto et al., 2019]。其次,在实时运行期间,该工具通过汇集多个内部模型的见解来推荐治疗方案,并且仅当这些模型显示出高不确定性时才请求人类专家指导。这种不确定性通过测量整个模型集成中预测的变异性来量化,为临床决策支持提供了一个可靠的置信度度量[Lakshminarayanan et al., 2017; Chen et al., 2025; Raza et al., 2025]。第三,AI系统对近期患者数据进行频繁且稳定的更新,以适应不断变化的状况,同时避免对新信息做出不稳定反应[Jayaraman et al., 2024]。为了最小化临床医生的工作量,一个自动化的选择过程仅识别信息量最大且多样化的病例供专家审查[Sener and Savarese, 2017]。该工具提供了查询阈值、流速率和批大小的轻量级控制,支持简单快速的运行时行为变更,无需完全重新训练。

参见图注
图1:提出的DT驱动的治疗反应AI系统概述。动态多模态数据持续输入以更新DT状态,该状态在安全约束和不确定性监测下支持治疗推荐,并生成治疗反应报告;一个在线更新循环将不确定病例标记以供临床医生跟进,并使用累积反馈进行模型更新。
参见图注
图2:已部署AI系统的工具概览。左侧面板提供数据上传和预览界面,包含启动模型训练的控制组件;右侧边栏集成了一个由大型语言模型驱动的AI聊天机器人工具,用于交互式辅助和AI系统指导。右上方面板显示患者数据探索功能,包含报告生成和页面内预览(完整报告示例见图3)。中间右侧面板显示用于数据和训练状态的监控仪表板;右下方面板提供用于配置模型训练和设置的参数控制。

本文提出了一个在线自适应决策支持框架,该框架将治疗效果估计、数字孪生和强化学习集成到一个在线自适应决策支持工具中。首先,我们通过结合一个基于历史数据初始化的稳定模型与一个响应式在线更新机制,建立了一个稳健的决策核心。其次,我们集成了一个患者数字孪生,能够在实时操作期间进行快速且一致的健康状态模拟。第三,我们使用治疗效果指标指导学习过程,确保AI系统优化具有临床意义的结果,同时通过不确定性监测和基于规则的约束维持安全性。

为了验证这些贡献并弥合模拟与临床实践之间的差距,我们在两个数据集上评估了该框架:一个用于系统分析的可控合成环境,以及一个来自癌症基因组图谱的真实世界卵巢癌治疗队列[Network and others, 2011]。我们选择卵巢癌作为真实世界案例研究,因为我们的临床合作者是卵巢癌专家,这为验证我们AI系统的决策行为和工作报告流程提供了一个临床基础扎实的环境。卵巢癌数据集呈现了临床挑战,包括不频繁的阳性治疗反应(仅占患者的27.5%)、多达11种治疗的复杂组合,以及编码临床分期和体能状态的详细患者档案。我们的结果表明,所提出的方法在模拟和真实世界临床环境中均取得了显著改善,反映了其实际适用性。总的来说,我们方法的示意图如图1所示,我们的主要贡献简要总结如下:

- **公开发布的AI工具,即时广泛访问。** 我们框架的完整实现,涵盖本文提出的所有方法论细节,已作为交互式Web应用公开发布¹。该工具可按需供任何用户使用,无需安装或注册。完整的AI工具概览如图2所示。
- **用于医疗数字孪生的安全意识在线评估循环。** 我们集成了一个不确定性驱动的查询机制与明确的基于规则的安全门(例如生命体征合理性、药物剂量范围、冲突检查),以便在任何潜在的临床违规发生之前触发保守的备用方案。
- **实时约束下的不确定性驱动选择性查询。** 我们将自动查询过程形式化,通过评估多个内部模型之间的一致程度来识别信息性病例[Lakshminarayanan et al., 2017; Thuy and Benoit, 2024]。
- **从历史数据到实时自适应无缝过渡。** 我们使用在回顾性数据上训练的高性能模型初始化AI系统,并应用频繁稳定的更新,以平衡学习新模式与维持AI系统稳定性的需求[Fujimoto et al., 2019; Jayaraman et al., 2024]。
- **保护隐私的数据处理。** 我们实现了一个模块,在数据录入点进行去标识化处理,自动移除直接标识符,并应用符合健康保险携带和责任法案安全港标准的隐私保护技术[Portability and Act, 2012]。

## II. 方法论

### II-A. 三阶段模型开发的离线训练

在任何模型使用数据之前,我们运行一次策略驱动的去标识化处理,使得所有学习过程均使用HIPAA安全港去标识化标准。具体而言,我们移除直接标识符(如姓名和病历号),将内部记录标识替换为随机研究标识,减少可能标识字段的细节(例如,我们仅保留邮编的前三位数字,并将年龄分组为范围),并通过一个小且固定的最大偏移量来调整日期,以防止重新识别,同时保留事件的相对时间。作为额外保障,我们验证k-匿名性,即每条记录在可能间接标识个人的字段上与至少其他k条记录无法区分。

#### 阶段1:动力学模型(五模型集成)

我们构建一个患者数字孪生,根据近期历史和所应用的治疗预测下一状态。该模型是一个Transformer编码器,接收状态向量序列和对齐的动作标记,并使用因果注意力掩码和填充掩码[Lai et al., 2026]。在每个时间步,网络预测残差变化,我们应用严格有界更新以提高迭代多步展开期间的稳定性:

\( \mathbf{s}_{t+1} = \operatorname{clip}\!\Bigl(\mathbf{s}_{t} + 0.05 \tanh\!\bigl(f_{\theta}(\mathbf{s}_{0:t}, a_{0:t})\bigr),\; 0,\; 1\Bigr). \) (1)

这里 \(\mathbf{s}_t \in [0,1]^d\) 是归一化状态,\(a_t \in \{0, \dots, K-1\}\) 是离散动作。损失仅通过一个二进制掩码在每个序列内的有效时间步上计算,忽略填充部分。我们使用平滑L1目标进行单步预测:

\( \mathcal{L}_{\text{DT}}(\theta) = \frac{1}{|\Omega|} \sum_{(i,t) \in \Omega} \ell_{\text{smooth}}\!\left(\hat{\mathbf{s}}^{(i)}_{t+1},\; \mathbf{s}^{(i)}_{t+1}\right), \) (2)

其中 \(\Omega\) 表示小批量中的所有有效位置。训练使用AdamW优化器、梯度裁剪和学习率调度器。我们在不同随机种子下训练五个独立模型,并保留所有五个用于评估。在展开期间,我们通过集成均值聚合预测。我们还使用集成方差作为不确定性信号。

#### 阶段2:反事实治疗结果与奖励模型

网络 \(r_{\phi}\) 预测给定 \((\mathbf{s}, a)\) 的即时结果。设 \(\mathbf{z}_{\text{health}} = g_{\phi}(\mathbf{s})\) 表示从状态特征学习到的健康表征。我们应用对抗去混杂,使用判别器 \(D_{\xi}(a | \mathbf{z}_{\text{health}})\),其中 \(\mathcal{L}_{\text{adv}}\) 是动作预测的交叉熵:

\( \min_{\phi} \max_{\xi} \; \mathbb{E}_{(\mathbf{s},a,y) \sim \mathcal{D}} \!\left[\, | r_{\phi}(\mathbf{s},a) - y | \; + \; \lambda_{\text{adv}} \, \mathrm{CE}\!\bigl(D_{\xi}(\cdot | \mathbf{z}_{\text{health}}),\, a\bigr) \right]. \) (3)

这里 \(\mathbb{E}_{(\mathbf{s},a,y) \sim \mathcal{D}}\) 表示对数据集 \(\mathcal{D}\) 的期望,\(|\cdot|\) 是绝对预测误差,\(\mathrm{CE}(\cdot,\cdot)\) 是用于训练 \(D_{\xi}\) 从 \(\mathbf{z}_{\text{health}}\) 预测 \(a\) 的交叉熵损失。权重 \(\lambda_{\text{adv}} > 0\) 平衡预测准确性和对抗正则化,减少了学习表征中对观察到的混杂结构的依赖。它无法消除来自未测量的混杂因素的偏差。

#### II-A1. 阶段3:采用批量约束Q学习的离线策略学习

我们决策逻辑的核心围绕着质量值(Q值)的概念。具体来说,\(Q_{\psi}(\mathbf{s}, a)\) 表示对给定健康状态 \(\mathbf{s}\)(包含生命体征和临床协变量)的患者应用治疗动作 \(a\) 所预测的长期临床获益,该值由具有学习参数 \(\psi\) 的神经网络Q网络估计。为了维持临床安全性,我们使用BCQ,该算法将AI系统的推荐限制在一个验证过的动作子集 \(\mathcal{A}_{\text{valid}}(\mathbf{s})\) 内。策略 \(\pi(\mathbf{s})\) 然后通过最大化安全集合内的质量分数来确定最佳干预:

\( \pi(\mathbf{s}) = \arg\max_{a \in \mathcal{A}_{\text{valid}}(\mathbf{s})} Q_{\psi}(\mathbf{s}, a), \) (4)

\( \mathcal{A}_{\text{valid}}(\mathbf{s}) = \{ a \in \mathcal{A} : b(a | \mathbf{s}) \geq \tau_{\text{supp}} \}. \)

在此框架内,\(b(a | \mathbf{s})\) 表示行为模型,它刻画了人类专家对于状态为 \(\mathbf{s}\) 的患者,从所有可能干预措施 \(\mathcal{A}\) 中选择动作 \(a\) 的可能性。支持阈值 \(\tau_{\text{supp}}\) 作为一个安全门,用于排除在历史临床数据中缺乏充分证据的动作,确保模型避免未经验证或可能有害的决策。该阈值在验证阶段进行调整,以有效平衡治疗结果的优化与严格的安全要求。

### II-B. 基于不确定性采样的在线学习

高不确定性候选样本(\(\tilde{u}(s_t) > \tau_{\text{query}}\))被缓冲;一旦缓冲区达到 \(k\) 个样本(查询批大小),应用 \(k\)-中心选择(不确定性加权的最远优先)来查询一批多样化的样本。

#### II-B1. 基于不确定性的选择性查询

我们维护一个由 \(H=5\) 个独立训练的Q网络组成的Q集成,这些网络从离线阶段初始化。贪婪动作选择使用集成均值:

\( a_t = \arg\max_{a \in \mathcal{A}} \frac{1}{H} \)

相似文章

启用全新医疗模式:AI 联合临床医生

Google DeepMind Blog

Google DeepMind 宣布启动 AI 联合临床医生研究计划,旨在通过"三方协同诊疗"改善医疗服务——即 AI 智能体在医生监督下协助患者。该系统在一项初级医疗咨询研究中展现出高准确率且零严重错误,表现优于现有循证综合工具。