多发性硬化症诱导的脑损伤模拟联邦分析

arXiv cs.LG 论文

摘要

本文介绍了一个用于多发性硬化症(MS)脑损伤联邦分析的模拟框架,该框架将图像分割与临床数据分析相结合,在保护患者隐私的同时测试联邦学习方法。

arXiv:2605.08223v1 公告类型:新提交 摘要:联邦学习、联邦分析等联邦技术已成为一种强大的范式,能够在保护患者隐私的同时,实现对敏感临床数据的多中心研究。在本研究中,我们介绍了一个模拟框架,该框架模拟了一个聚焦于多发性硬化症(MS)患者数据分析的真实世界联邦研究项目。该项目包含两个部分:一个图像分割任务和一个临床数据分析任务,其中采用了生存分析和主成分分析(PCA)的联邦变体。为了捕捉真实临床数据集的复杂性和异质性,我们构建了一个由高保真合成队列组成的联邦,旨在反映与MS相关的临床和人口统计学特征,而图像部分则利用了公开可用的真实世界数据集。我们的模拟复制了真实联邦工作流的关键要素,包括分布式数据治理、站点特定的预处理、在隔离节点上的模型训练以及分析结果的安全聚合。该框架为在MS研究背景下开发、评估和基准测试联邦学习方法提供了一个逼真的测试平台。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:08

# 多发性硬化诱导脑部病灶的联邦分析模拟
来源: https://arxiv.org/html/2605.08223
###### 摘要

联邦学习(Federated Learning)和联邦分析(Federated Analysis)等联邦技术已成为一种强大的范式,能够在保护患者隐私的同时,实现针对敏感临床数据的多中心研究。在本研究中,我们介绍了一个模拟框架,该框架模拟了一个聚焦于多发性硬化(MS)患者数据分析的真实世界联邦研究项目。该项目包含两个组成部分:一个图像分割任务和一个临床数据分析任务,其中采用了生存分析和主成分分析(PCA)的联邦变体。为了捕捉真实临床数据集的复杂性和异质性,我们构建了一个高保真合成队列联盟,旨在反映与 MS 相关的临床和人口统计学特征,同时成像部分利用了公开可用的真实世界数据集。

我们的模拟复制了真实联邦工作流的关键要素,包括分布式数据治理、站点特定的预处理、在隔离节点上的模型训练以及分析输出的安全聚合。该框架为在 MS 研究背景下开发、评估和基准测试联邦学习方法提供了逼真的测试平台。

## I 引言

本手稿展示了一种结合图像数据和临床数据对多发性硬化病进展进行的模拟分析。此处展示的分析工作受到了 INTONATE 网络成果\[17 (https://arxiv.org/html/2605.08223#bib.bib4),19 (https://arxiv.org/html/2605.08223#bib.bib22)\]的启发。INTONATE-MS 联盟是明斯特大学医院、宾夕法尼亚大学医学中心、多伦多 Unity Health、伊拉斯姆斯医学中心(Erasmus MC)和罗氏之间建立的公私研究联盟。它构成了一个协作式的联邦研究框架,将大规模、多中心的临床试验数据与现实世界证据(RWE)相结合,以增进对多发性硬化(MS)的理解和管理。特别是,图像分析遵循联邦图像分割研究\[10 (https://arxiv.org/html/2605.08223#bib.bib2)\],统计部分则基于 INTONATE 项目中的多中心整合研究\[18 (https://arxiv.org/html/2605.08223#bib.bib3)\]。

在本文中,我们展示了在联邦环境下图像分析、统计推断和生存分析之间的相互作用。我们提出了一种多模态、多中心分析端到端工作流,可为药物开发提供有价值的贡献。

本研究中使用的图像数据来自公共数据集\[7 (https://arxiv.org/html/2605.08223#bib.bib1)\],而所有临床数据集均为完全合成的。虽然公共图像数据集也包含临床表格,但我们选择生成人工数据,以便演示更广泛的统计方法和效应。

临床数据可以映射到 OMOP CDM(观察性医疗结果合作伙伴通用数据模型)。临床测量值、复发和症状可以在观察表和测量表之间对齐,而人口统计学和疾病属性可以从人员、状况和药物暴露表中映射。源变量到相应 OMOP CDM 表的详细映射见表 I (https://arxiv.org/html/2605.08223#S1.T1)。

表 I:源变量到 OMOP CDM 表的映射。一些统计模式是有意设计用于演示的,并不反映真实的临床场景。本文演示了联邦统计和联邦机器学习如何从不可直接访问且分布在多个站点的数据中提取见解。特别是,我们证明了对整个统计集进行联邦分析可以揭示在仅考虑孤立子集时看不到的模式。

## II 联邦分析

联邦分析\[6 (https://arxiv.org/html/2605.08223#bib.bib7)\]是一种基于计算机的系统范式,旨在启用对分布式和敏感医疗数据集的联合分析,而无需数据集中化。在临床和生物医学研究环境中,由于隐私、监管和治理限制,数据集通常在各机构间形成孤岛,限制了传统集中式分析管道的适用性。联邦分析通过在每个数据持有站点本地执行分析计算,并仅共享中间结果或聚合结果以进行全局分析来解决这一挑战。尽管由于联邦架构涉及额外的通信开销,这种方法需要更长的计算时间,但其优势仍然显而易见,因为它可以解锁原本不符合分析条件的数据源。从基于计算机的医疗系统角度来看,其主要贡献在于系统架构、编排和安全计算。该方法不侧重于自动临床决策制定。这使得联邦分析特别适合多中心研究、药物开发和医疗研究基础设施。

### II-A 架构

图 1 (https://arxiv.org/html/2605.08223#S2.F1) 说明了由 Apheris 实现的联邦学习网络的一般架构。

参见图注 图 1:Apheris 联邦架构\[4 (https://arxiv.org/html/2605.08223#bib.bib20)\]网关(Gateway)是一个代理,网络参与者可以将其部署到 Kubernetes 集群中,该集群在此集群中以 Pod 形式启动计算。每个网关在其自己的隔离虚拟私有云(VPC)中部署其本地数据。负责模型参数收集和聚合的中心 Apheris 编排器(Orchestrator)也部署在其自己的 VPC 中。

对注册到 Apheris 网关的数据集的访问以及隐私控制由资产策略控制,确保敏感的患者数据可以保持本地,同时仍然有助于全球模型开发\[9 (https://arxiv.org/html/2605.08223#bib.bib19),8 (https://arxiv.org/html/2605.08223#bib.bib23)\]。联邦计算和训练工作流的概览如图 2 (https://arxiv.org/html/2605.08223#S2.F2) 所示。

参见图注 图 2:在编排器上进行集中聚合的联邦计算工作流。

### II-B 网关侧数据集设置

分析围绕两个合成站点设计,每个站点都包含图像和表格数据。数据集在各自的位置注册到 Apheris 网关,该过程在 Apheris 文档\[2 (https://arxiv.org/html/2605.08223#bib.bib5)\]中有详细说明。数据保持安全,资产策略仅授权计算作业访问。数据保留在其原始位置;从未被下载或传输。每个计算网关绑定到单个组织。我们在分析中使用两个网关的设置,并为每个网关注册一个表格临床数据集和一个图像数据集。将数据集注册到计算网关将数据与 Apheris 产品连接起来。

### II-C 开源联邦框架

Apheris 的联邦引擎基于 NVFlare,也可以与 Flower 集成。其他框架如 OpenFL、FATE 或 PySyft 尚未与 Apheris 进行测试,但概念上任何基于服务器的联邦引擎都可以集成。像 Kaapana 或 NVFlare 这样的开源联邦学习框架已被证明对多站点医院合作有效,但它们主要解决计算发生在哪里(保持数据在本地)的问题,而没有对计算内容进行细粒度控制。Apheris 增加了计算访问治理层:数据管家定义每项资产策略,限制哪些计算可以在其数据上运行,确保仅执行已批准、保护隐私的工作负载。网关设计用于以最小的部署开销集成到现有基础设施中,这对于需要多个独立方对其数据使用方式进行可审计控制的跨组织协作来说非常实用。

## III 相关工作

多发性硬化(MS)研究的最新进展越来越多地利用联邦学习\[15 (https://arxiv.org/html/2605.08223#bib.bib8)\]来实现对多中心临床数据的隐私保护分析。个性化联邦学习方法已被提出,通过适应共享模型到局部分布来提高预测性能,使用选择性参数共享和个性化微调等技术\[20 (https://arxiv.org/html/2605.08223#bib.bib15)\]。联邦学习也已集成到更广泛的多层数据管道中,以促进机构间的大规模协作和系统化数据处理\[21 (https://arxiv.org/html/2605.08223#bib.bib16)\]。在 MS 数据建模中的互补方法采用贝叶斯方法、机器学习和基于通用数据模型(CDM)的联邦学习来协调异构的现实世界数据集并增强预测建模\[23 (https://arxiv.org/html/2605.08223#bib.bib17)\]。在成像背景下,联邦学习已应用于改善临床站点间的 MS 病灶分割,结合抗噪训练和标签校正以提高分割性能\[3 (https://arxiv.org/html/2605.08223#bib.bib18)\]。此外,可解释的联邦学习方法已被探索用于 MS 检测和病灶定位,使模型能够解释疾病特征的预测和空间定位\[16 (https://arxiv.org/html/2605.08223#bib.bib14)\]。

在这项工作中,我们使用人工模拟数据来说明联邦图像分割和联邦分析如何在实践中应用。在罗氏和 Apheris 的合作中,INTONATE-MS 联盟内已经实现了针对 MS 诱导病灶分割\[10 (https://arxiv.org/html/2605.08223#bib.bib2)\]和 MS 疾病进展\[17 (https://arxiv.org/html/2605.08223#bib.bib4)\]的重要贡献。

## IV 图像分析

我们现在展示一个具体的实例,说明如何将这些概念应用于实践,并从图像分析开始。为此,我们在联邦学习设置下,使用下面描述的两个成像数据集对 nnU-Net\[12 (https://arxiv.org/html/2605.08223#bib.bib6),11 (https://arxiv.org/html/2605.08223#bib.bib12)\]进行了微调。

### IV-A 数据集描述

MSlesseg\[7 (https://arxiv.org/html/2605.08223#bib.bib1)\]数据集包含来自 75 名患者的 115 个 NIFTI 脑部 MRI 扫描,包含三个通道:T1、T2 和 FLAIR。每个扫描有 182 个切片,并有一个关联的分割掩码,标记了专家注释的每个切片的脑部病灶。115 个扫描按患者 ID 分为两组,分别为 50 和 65 张图像。两个数据集进一步划分为训练集和测试集,最终我们在站点 1 上有 41 张训练图像和 9 张测试图像,在站点 2 上有 52 张训练图像和 13 张测试图像。

### IV-B 联邦训练

为了在两个图像数据集上运行联邦微调,我们使用 Apheris 网关,并首先指定一个计算规范(compute spec),包含以下数据集、模型和研究配置:

```python
compute_spec_id = compute.create_from_args(
    dataset_ids=dataset_ids,
    model_id="apheris-nnunet",
    model_version="0.28.0",
    client_memory=32000,
    client_n_cpu=14,
    client_n_gpu=1,
    server_memory=16000,
    server_n_cpu=7,
)
```

一旦通过 Apheris CLI 激活并运行计算规范,就可以向计算规范提交触发联邦训练的作业。典型的训练负载如下所示:

```json
payload = {
    "mode": "training",
    "device": "cuda",
    "num_rounds": 30,
    "model_configuration": "2d",
    "dataset_id": 123
}
```

```python
job.submit(payload,
           compute_spec_id=compute_spec_id,
           verbose=True)
```

训练作业完成后,可以通过 Apheris CLI 下载模型检查点,并进一步用于推理。推理作业将为推理集中的每张图像生成 MRI 扫描每个切片的推断分割掩码。图 3 (https://arxiv.org/html/2605.08223#S4.F3) 显示了原始数据的一个切片,连同真实值和推断的分割掩码。

参见图注 图 3:单张图像数据点切片(底行)连同真实和预测分割掩码(顶行)。选定切片的 Dice 得分为 0.85,整体图像为 0.67。底行显示了 FLAIR、T1 和 T2 通道上的 MRI 图像。

此处展示的联邦模型训练旨在作为概念验证,以演示端到端工作流,而非优化模型性能。INTONATE-MS 联盟内通过联邦微调实现的定量改进已在\[10 (https://arxiv.org/html/2605.08223#bib.bib2)\]中报道,其中联邦 nnU-Net 模型在评估中取得的 Dice 得分范围为 0.66 到 0.80。虽然图像数据和真实值敏感且对用户不可直接见,但推断的分割掩码可以根据用例和模型配置,直接返回给用户(如果不被视为敏感),或保留在网关上进行进一步处理和聚合。

## V 基础统计

参见图注 图 4:两个站点关键变量的箱线图,显示中位数、四分位数和范围。

从推断的分割掩码中获得的一项信息是脑部病灶体积。我们假设这些信息在我们的临床数据表中可用,并探索其与其他临床测量的关系。

我们从简单的探索性数据分析开始,首先进行 tableone 计算,为选定的数值列提供描述性统计。结果如表 II (https://arxiv.org/html/2605.08223#S5.T2) 所示。

| 变量 | n | 均值 | 标准差 | 最小值 | 第一四分位数 | 中位数 | 第三四分位数 | 最大值 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 符号数字模态测试 (SDMT) | 1386 | 55.56 | 10.15 | 27.00 | 48.60 | 54.60 | 63.00 | 87.00 |
| 年化变化 (CHG) | 1386 | 0.39 | 0.31 | -0.48 | 0.18 | 0.38 | 0.59 | 1.40 |
| 扩展残疾状态量表 (EDSS) | 1386 | 3.51 | 2.16 | 0.03 | 1.71 | 2.97 | 4.93 | 14.03 |
| 复发次数 (RELAPSE) | 1386 | 3.11 | 1.82 | 0.00 | 1.98 | 2.97 | 3.96 | 9.00 |
| 删失指标 (CNSR) | 1386 | 0.01 | 0.11 | 0.00 | 0.01 | 0.01 | 0.01 | 1.00 |
| 多发性硬化功能复合物 (MSFC) | 1386 | -2.33 | 2.02 | -9.33 | -3.72 | -2.32 | -1.07 | 6.26 |
| 25 英尺定时步行测试 (T25FWT) | 1386 | 8.91 | 2.53 | 2.00 | 6.96 | 8.88 | 10.96 | 18.00 |
| 九孔柱测试 (9HPT) | 1386 | 22.66 | 9.77 | 0.00 | 15.96 | 21.66 | 28.50 | 57.00 |
| 脑部病灶体积 | 1386 | 2188 | 2136 | 141 | 410 | 343 | 722 | 10338 |
| 确认残疾累积 (CDA) | 1386 | 0.0 | 0.2 | 0.0 | 0.0 | 0.0 | 0.1 | 1.0 |

表 II:tableone 函数提供了所有关键变量的摘要。数值根据其大小四舍五入到两位小数,脑部病灶体积则四舍五入到整数。

我们以联邦方式对整个数据集集合应用此分析,并分别对每个站点单独应用,以识别数据分布或幅度的潜在差异。结果如图 4 (https://arxiv.org/html/2605.08223#S5.F4) 中的箱线图所示。两个站点的比较显示 MSFC 和 T25FWT 分布有微小偏差,而 EDSS 和脑部病灶体积有较大偏差。

为了更清楚地了解数据中不同特征之间的连接方式,我们调查了相关矩阵。在此,将两个站点的独立分析与统计整体上的联邦分析进行比较。

每个站点独立计算的相关矩阵显示了 MS 功能结果测量值的合理相关块,并且显然 EDSS 与脑部病灶体积之间存在负相关(参见图 5 (https://arxiv.org/html/2605.08223#S5.F5))。

参见图注 图 5:相关

相似文章

联邦学习

ML at Berkeley

本文解释了联邦学习作为一种保护隐私的机器学习技术的概念,该技术通过在本地设备而非中央服务器上训练模型来实现。文章详细描述了加密参数更新和聚合的过程,旨在降低数据泄露风险,同时保持模型性能。

基于嵌入的联邦学习与运行时治理的铁缺乏预测

arXiv cs.LG

本文提出了一种基于嵌入的联邦学习流水线,用于从常规血常规数据预测铁缺乏,并在两个具有非独立同分布(non-IID)分布的临床站点部署。结果表明,个性化聚合(FedMAP)优于标准FedAvg和仅本地训练,在两个站点均实现了更高的ROC-AUC。