医疗中的联邦生存分析：跨机构异质性乳腺癌数据的多模型评估

arXiv cs.LG 2026/06/24 04:00 论文

摘要

本文系统评估了联邦学习下三种生存模型（Cox、DeepSurv、RSF）在异质性乳腺癌数据上的表现，发现联邦学习优于本地训练，且RSF在各客户端间提供了最佳性能平衡。

arXiv:2606.23871v1 公告类型：新摘要：生存分析是临床决策的核心，然而可靠的事件时间模型需要大规模、多样化的队列，这在单一机构中很少见，同时隐私法规限制了患者数据的集中化。联邦学习（FL）提供了一种保护隐私的替代方案，通过训练共享模型而不交换原始数据，但其在现实、异质性条件下进行生存建模的有效性仍未得到充分了解。本文在具有自然异质性分布式客户端的跨机构乳腺癌队列上，对联邦生存分析进行了系统的多模型评估。三种代表性生存模型——Cox比例风险模型、DeepSurv和随机生存森林（RSF）——在集中式、本地和联邦训练下进行了比较，并对基于梯度的模型评估了三种联邦优化策略（FedAvg、FedProx和FedAdam）。结果表明，联邦学习始终优于本地训练，接近并偶尔超过集中式性能，而RSF在异质性客户端间提供了最佳的辨别、校准和鲁棒性整体平衡。我们进一步发现性能依赖于客户端分布的多样性，并且FedAvg和FedProx比FedAdam更强、更稳定。基于这些发现，我们推导出实用的、面向决策的指南，将数据、隐私、可解释性和资源约束映射到医疗中联邦生存建模的推荐模型和训练范式选择。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:49

# 医疗中的联邦生存分析：基于跨机构异质性乳腺癌数据的多模型评估

来源：https://arxiv.org/html/2606.23871

Anusha Ihalapathirana，Pekka Siirtola，Miguel Fernandez-de-Retana
本工作受巴斯克政府资助（项目号：DEUSTEK6 – 面向智慧可持续健康社区与人本计算，IT1901-26）以及欧盟“地平线欧洲”研究与创新计划下的LATE-AYA项目资助（资助协议号：101214326）。N. Moreno-Blasco 现就职于芬兰奥卢大学信息技术与电气工程学院（电子邮箱：[email protected]）。A. Ihalapathirana 和 P. Siirtola 现就职于芬兰奥卢大学生物仿生与智能系统研究组（电子邮箱：{anusha.ihalapathirana, pekka.siirtola}@oulu.fi）。M. Fernandez-de-Retana 现就职于西班牙德乌斯托大学工程学院（电子邮箱：[email protected]）。

######  摘要

生存分析是临床决策的核心，然而可靠的时间至事件模型需要大规模、多样化的队列，这在单一机构中很难获得，同时隐私法规限制患者数据的集中化。联邦学习（FL）提供了一种保护隐私的替代方案，通过在不交换原始数据的情况下训练共享模型，但它在现实异质性条件下对生存建模的有效性仍未被充分理解。本文对在具有自然异质性分布客户的跨机构乳腺癌队列上的联邦生存分析进行了系统性的多模型评估。比较了三种代表性的生存模型：Cox比例风险模型、DeepSurv和随机生存森林（RSF），分别针对集中式、本地式和联邦式训练进行了对比，并针对基于梯度的模型评估了三种联邦优化策略（FedAvg、FedProx和FedAdam）。结果表明，联邦学习始终优于本地训练，接近甚至偶尔超过集中式性能，而RSF在异质性客户间提供了最佳的区分度、校准度和鲁棒性平衡。我们进一步发现，性能取决于客户分布的多样性，且FedAvg和FedProx比FedAdam更强且更稳定。基于这些发现，我们得出了实用的、面向决策的指南，将数据、隐私、可解释性和资源约束映射到推荐的模型和训练范式选择，用于医疗中的联邦生存建模。

\{IEEEkeywords\} 乳腺癌，联邦学习，医疗数据，机器学习隐私，肿瘤学，生存分析

## 1 引言

\IEEEPARstart 人工智能（AI）在临床实践中的加速整合，使得数据驱动系统成为诊断、预后、治疗规划和疾病进展预测等任务的核心工具[41,31]。这些系统通过从大量患者记录中学习模式，能够支持临床医生做出更准确、更及时的决策[21]。然而，它们在医疗中的部署从根本上受到医疗数据去中心化和隐私敏感性的限制——这些数据通常分散在各大医院、实验室和研究中心，每个机构都有自己的存储基础设施、治理程序和伦理监督[39]。即使技术互操作性是可行的，欧洲的《通用数据保护条例》（GDPR）[10]和美国的《健康保险携带和责任法案》（HIPAA）[34]等法律和伦理框架也限制了患者信息的集中化。这种情况造成了数据可访问性和数据隐私之间的紧张关系。一方面，稳健的机器学习模型需要大规模、多样化和具有代表性的数据集以实现可泛化的预测；另一方面，临床数据的敏感性使得无限制的汇总既不可接受也不可行。因此，许多研究依赖单一机构的数据集，产生的模型在一个临床环境中表现良好，但无法泛化到其他环境，这种现象通常被称为数据集偏差或领域偏移[21]。除了预测性能外，基于同质数据训练的模型还可能反映出数据收集机构的入口统计或程序偏差，引发重要的伦理和公平性问题[5]。

联邦学习（FL）由McMahan等人[32]提出，已成为应对这些挑战的一种有前景的范式。它不将数据集中到单一位置，而是通过仅交换模型参数或更新，使多个机构能够共同训练共享模型，同时将底层患者数据保留在本地并保持私密。这种方法既保持了机密性，又促进了跨机构合作，并通过使模型暴露于更广泛的数据分布来提高泛化能力[39]。FL在医疗应用中已显示出潜力，例如COVID-19患者临床结局的多机构预测[9]以及保护隐私的脑肿瘤分割[28]。然而，医疗中的FL仍是一个新兴领域[19]：实际部署必须应对通信开销、客户间的统计异质性（非独立同分布，或非iid数据）[29]，以及共享模型更新并不能提供绝对隐私这一事实——因为梯度泄露攻击可以部分重建私有输入[12,43,11]。

一个临床核心但相对未充分探索的FL应用是生存分析，这是统计学的一个分支，主要研究感兴趣事件（如疾病进展、复发或死亡）发生前的时间[7,24]。与标准的回归或分类不同，生存模型必须明确处理删失，即研究期内未观察到事件的个体。生存分析在肿瘤学中起着决定性作用，其中乳腺癌是全球最常见的癌症[40]，而可靠的时间至事件估计为预后和治疗决策提供信息。由于这类模型受益于单一机构难以获得的大规模、多样化队列，生存分析自然适合联邦设置；同时，删失、不平衡的事件发生率和机构间差异使得联邦公式在方法上具有挑战性。

FL与生存分析的结合是近年来的一个研究热点，但发展迅速。FedSurF++[2]通过单轮通信聚合本地训练的生存树，将随机生存森林（RSF）扩展到联邦场景。Andreux等人[1]表明，朴素地联邦化Cox比例风险（CoxPH）模型会产生一种在异质性下性能下降的分层Cox公式，并提出了一种具有可分离损失的离散时间重构，以实现有效的联邦训练。最近，FedScore-Surv[26]开发了跨机构保护隐私的联邦时间至事件评分，而FedPseudo[37]引入了基于伪值的深度学习框架用于联邦生存建模。这些贡献补充了更广泛的医疗FL研究，涵盖重症监护死亡率预测[33]、多模态COVID-19诊断[36]、医疗物联网（IoMT）中的异常检测[14]以及跨联邦知识蒸馏[6]。

尽管取得了这些进展，大多数现有研究要么关注单一模型家族，要么提出新算法并进行孤立评估。很少有工作在不同训练范式下系统比较不同的模型家族，并在受控数据异质性下进行评估；集成方法如RSF在联邦设置中（除了FedSurF++外）仍然探索不足。关键的是，缺乏实用的、面向决策的指导，来帮助在给定数据特征、隐私约束和计算预算下选择*哪种*生存模型和*哪种*训练范式。这一差距促使我们进行基于场景的比较评估，而不是追求单一的最佳性能模型。

在这项工作中111代码公开地址：https://github.com/nataliamorenob/Survival-Models-in-Federated-Healthcare-Settings，我们提出了一个针对跨机构、异质性乳腺癌数据的联邦生存分析的系统性多模型评估。我们比较了三种代表性的生存模型——统计Cox比例风险（CoxPH）模型、基于深度学习的DeepSurv模型和树集成随机生存森林（RSF）模型——跨越三种训练范式（集中式、本地式和联邦式），使用了来自FLamby基准套件[35]的Fed-TCGA-BRCA数据集。本文的主要贡献如下：

- • 在真实的、多机构乳腺癌队列（具有自然异质性客户分布）上，对CoxPH、DeepSurv和RSF在本地、联邦和集中训练下进行统一的实证比较。
- • 分析数据异质性（通过参与客户的数量和组成体现）如何影响联邦生存模型的区分度和校准度。
- • 对两种基于梯度的生存模型评估联邦优化策略（FedAvg、FedProx和FedAdam），检验它们在异质性客户分布下的鲁棒性。
- • 提供一套实用的、面向决策的指南，将数据、隐私、可解释性和资源约束映射到推荐的模型和训练范式选择。

本文其余部分组织如下。第2节描述数据集、生存模型、学习范式和联邦优化策略，以及实验设置。第3节报告评估指标和实验结果，第4节讨论主要发现并得出实用指南，最后一节总结论文并展望未来研究方向。

## 2 方法

本节描述本研究采用的方法论框架。首先介绍Fed-TCGA-BRCA数据集，包括其跨机构异质性的特征描述。然后介绍三种生存模型及其在联邦时间至事件建模中的适用性。最后详细说明学习范式、联邦优化策略和实验设置。

### 2.1 数据集与预处理

实验在Fed-TCGA-BRCA数据集上进行，该数据集来自FLamby基准套件[35]，专门为现实医疗环境中的跨筒仓联邦学习设计。底层数据来源于癌症基因组图谱计划（TCGA）[42]，这是最大的公共癌症基因组学资源之一，可通过基因组数据共享（GDC）数据门户[17]访问。该队列聚焦于乳腺浸润性癌（BRCA），整合了来自全球多个机构的1000多名患者的临床、病理和分子特征。在FLamby基准中，仅使用TCGA-BRCA的临床表格子集，因为它提供了结构化、可解释的变量，适用于表格机器学习，并允许对从诊断或治疗开始到死亡或最后随访的时间进行建模。

每位患者由39个特征表示，这些特征分为人口统计学（例如年龄、种族和民族指标）、病理学（例如肿瘤、淋巴结、转移和总体分期变量）、诊断与编码（ICD-10和形态学指标）、临床史与治疗（既往恶性肿瘤和治疗指标）以及简化的肿瘤分期变量。结果由事件指示符\(E\)（即1表示观察到死亡，0表示右删失观测）和以天为单位的生存时间\(T\)描述。数据集根据FLamby的原始设计划分为训练集和测试集。训练集在每个客户内部进一步划分为本地训练集和验证集，如第2.5节所述。重要的是，该数据集的一个定义性特征是其自然的跨机构**异质性**。表1总结了六个原始中心的队列，报告了患者数量、观察到的事件（死亡）、删失病例、观察到的随访时间范围以及事件发生率。数据集包含1,088名患者，151个记录事件和937个删失观测，总体事件发生率约为13.9%。各中心在规模（从51到311名患者）、事件发生率（从5.6%到19.9%）和最大观察随访时间（从1,900天到8,605天）上差异显著，并且还表现出不同的年龄分布和生存曲线。这种样本量、删失水平和随访窗口的组合再现了真实多机构研究中遇到的非iid条件，使该数据集非常适合在现实异质性下评估联邦生存模型。

表1：按中心划分的Fed-TCGA-BRCA数据集摘要（训练和测试数据合并）

注：实验使用最多五个客户，对应中心\{0,...,4\}，如第2.5节所述。由于事件数量有限，客户5被排除。

在训练之前，每个客户的数据被分割，采用分层、事件感知的策略，保留事件与删失的比例并避免数据泄露。保留的测试分区是FLamby提供的；其余数据进一步分为训练集和验证集，验证比例根据本地观察到的事件数量进行调整，以确保足够的事件代表性：
\[
\text{val\_size} = \begin{cases}
0.30 & \text{若 } n_{\text{events}} \geq 200 \\
0.25 & \text{若 } 10 \leq n_{\text{events}} < 20 \\
0.20 & \text{若 } n... 
\end{cases}
\]

医疗中的联邦生存分析：跨机构异质性乳腺癌数据的多模型评估

相似文章

FederatedRSF : 联邦随机生存森林用于部分重叠的医学数据

多发性硬化症诱导的脑损伤模拟联邦分析

探测、融合与可信度：面向多模态癌症分析的基础模型表征系统评估

将数据驱动预测与分配对齐：一种以决策为中心的生存分析方法

同质与异构数据分布下联邦学习聚合策略的比较研究

提交意见反馈