基于嵌入的联邦学习与运行时治理的铁缺乏预测
摘要
本文提出了一种基于嵌入的联邦学习流水线,用于从常规血常规数据预测铁缺乏,并在两个具有非独立同分布(non-IID)分布的临床站点部署。结果表明,个性化聚合(FedMAP)优于标准FedAvg和仅本地训练,在两个站点均实现了更高的ROC-AUC。
arXiv:2605.21563v1 公告类型: 新
摘要:最近的综述发现,已发表的医疗保健联邦学习(FL)研究中,绝大多数从未达到实际部署。我们开发了一种基于嵌入的FL流水线,用于从常规全血细胞计数(FBC)数据预测铁缺乏,并将其部署在阿姆斯特丹大学医学中心(AUMC)和NHS血液与移植中心(NHSBT)的实际机构环境中,这两个临床环境在铁缺乏患病率、铁蛋白分布和受试人群上存在显著差异。一个冻结的领域特异性血液学基础模型DeepCBC执行站点局部表示提取,将联邦训练限制在一个紧凑的下游分类器上,与全编码器联邦相比,显著减少了重复通信。这两个临床数据集在结构上非独立同分布(non-IID),其异质性源于不同人群差异,而非采样伪影。运行时治理由FLA$^3$强制执行,这是一个面向医疗的FL平台,提供研究范围执行、基于策略的授权和签名审计日志。标准的样本量加权聚合(FedAvg)在两个站点的接收者操作特征曲线下面积(ROC-AUC)相对于仅本地训练有所降低,因为全局更新偏向于更大的AUMC分布。个性化聚合方法FedMAP相对于仅本地训练,将AUMC的ROC-AUC从0.9470提高到0.9594,将NHSBT的ROC-AUC从0.8558提高到0.8671,实现了最高的宏观ROC-AUC 0.9133和最佳的整体宏观平衡准确率。这些结果支持在客户端样本量和任务相关性差异显著的临床联邦中使用个性化聚合。
查看缓存全文
缓存时间: 2026/05/22 08:49
# 基于嵌入的联邦学习与运行时治理在铁缺乏预测中的应用††感谢:*这些作者对本文贡献相同。††感谢:为开放获取目的,作者已对任何经作者接受的稿件版本应用知识共享署名(CC BY)许可。
来源:https://arxiv.org/html/2605.21563
Simon Deltadahl\*Majid Lotfian DeloueeDaniel KreuterJoseph TaylorAllerdien VisserBloodCounts\! ConsortiumJames H\. F\. RuddNicholas S\. GleadallSuthesh SivapalaratnamFolkert AsselbergsMartijn C\. SchutMichael Roberts
###### 摘要
近期综述发现,绝大多数已发表的医疗联邦学习(FL)研究从未进入真实世界部署。我们开发了一种基于嵌入的联邦学习流程,用于根据常规全血细胞计数(FBC)数据预测铁缺乏,并将其部署在阿姆斯特丹大学医学中心(AUMC)和NHS血液与移植中心(NHSBT)这两个临床环境各不相同的实际机构中,它们在铁缺乏患病率、铁蛋白分布和受试人群上存在显著差异。一个冻结的领域特异性血液学基础模型DeepCBC负责站点本地的表示提取,将联邦训练限制在一个紧凑的下游分类器上,与全编码器联邦相比大幅减少了重复通信。这两个临床数据集在结构上并非独立同分布(non-IID),其异质性源于不同的人群差异而非采样伪影。运行时治理由FLA3强制执行,这是一个面向医疗的FL平台,提供研究范围限定的执行、基于策略的授权以及带签名的审计日志记录。标准样本量加权聚合(FedAvg)导致两个站点的ROC曲线下面积(ROC-AUC)相对于本地训练有所下降,因为全局更新偏向于更大的AUMC分布。个性化聚合方法FedMAP将ROC-AUC从AUMC的0.9470提高到0.9594,从NHSBT的0.8558提高到0.8671,相对于本地训练实现了最高的宏ROC-AUC(0.9133)和最佳的宏平衡准确率。这些结果支持在客户端样本量和任务相关性差异显著的临床联邦中采用个性化聚合。
## I引言
全血细胞计数(FBC)检测是临床实践中最为频繁的检查之一。FBC检测组合不直接测量铁储备,但血红蛋白浓度(HGB)、平均红细胞体积(MCV)、平均红细胞血红蛋白含量(MCH)和红细胞分布宽度(RDW)等指标携带着与铁缺乏相关的信息。先前的研究表明,基于常规实验室数据的机器学习模型能够以有用的区分能力预测低铁蛋白(低铁蛋白是体内铁储备低的代理指标,也是铁缺乏诊断的主要检测方法)[15 (https://arxiv.org/html/2605.21563#bib.bib11),12 (https://arxiv.org/html/2605.21563#bib.bib12),6 (https://arxiv.org/html/2605.21563#bib.bib10),5 (https://arxiv.org/html/2605.21563#bib.bib18)]。核心障碍不仅仅是模型设计本身。获取足够广泛的数据同样具有限制性:单一机构可能捕获过于狭窄的临床人群[13 (https://arxiv.org/html/2605.21563#bib.bib4)],而数据集中化受到隐私法律、机构治理和运营信任边界的制约。
联邦学习(FL)通过在不汇集原始患者数据的情况下跨机构训练模型,部分解决了这一问题[10 (https://arxiv.org/html/2605.21563#bib.bib1),11 (https://arxiv.org/html/2605.21563#bib.bib3),13 (https://arxiv.org/html/2605.21563#bib.bib4)]。在医疗领域,挑战超出了分布式优化的范畴。最近的综述文章认为,许多已发表的医疗FL研究因在偏差、隐私、泛化、通信和治理合规性方面存在方法论缺陷,仍然不适合临床使用[7 (https://arxiv.org/html/2605.21563#bib.bib13),19 (https://arxiv.org/html/2605.21563#bib.bib15),21 (https://arxiv.org/html/2605.21563#bib.bib9)]。另一项系统性综述发现,仅有5.2%的医疗FL研究报告了实际应用[14 (https://arxiv.org/html/2605.21563#bib.bib14)]。真正的临床部署仍然罕见,这促使我们需要来自实际运营环境的实证报告。各站点在人群、检测指征、实验室工作流程、治理要求和网络态势上也存在差异,因此非独立同分布数据(non-IID)问题往往是结构性的而非偶然的。
我们报告了一项跨机构研究,涉及BloodCounts!联盟的AUMC和NHSBT两个站点。该系统使用预训练的领域特异性FBC基础模型DeepCBC[5 (https://arxiv.org/html/2605.21563#bib.bib18)]进行站点本地表示提取,并将联邦训练限制在一个紧凑的下游分类器上。我们比较了本地训练与FedAvg[10 (https://arxiv.org/html/2605.21563#bib.bib1)]、FedProx[8 (https://arxiv.org/html/2605.21563#bib.bib2)]以及FedMAP[20 (https://arxiv.org/html/2605.21563#bib.bib22)](一种为异质性医疗联邦开发的人性化聚合方法)的表现。该部署运行在FLA3[21 (https://arxiv.org/html/2605.21563#bib.bib9)]上,该平台提供研究范围限定的执行、运行时策略强制和可审计日志记录。
本文贡献如下:
1. 1.一种实用的医疗FL两阶段设计,其中冻结的血液学基础模型处理站点本地的表示提取,仅对紧凑的下游分类器进行联邦训练。
2. 2.对高度异质性的临床联邦的表征,其中各站点在患病率、铁蛋白分布和有效阳性类数量上因不同的临床工作流程而存在显著差异。
3. 3.经验证明,当患病率和临床目的存在差异时,样本量加权聚合会降低两个站点的性能,而在此双站点部署中,人化聚合恢复并超越了两个站点的本地训练ROC-AUC。
4. 4.一个实际部署演示,说明运行时治理控制(包括研究范围界定、基于策略的授权和带签名的审计日志记录)如何集成到医疗FL系统中。
## II相关工作
联邦学习已应用于医学影像、电子健康记录和多中心临床预测,并反复强调数据异质性、泛化性和可部署性问题[11 (https://arxiv.org/html/2605.21563#bib.bib3),13 (https://arxiv.org/html/2605.21563#bib.bib4),16 (https://arxiv.org/html/2605.21563#bib.bib5),17 (https://arxiv.org/html/2605.21563#bib.bib6)]。FedProx引入了一个近端项来稳定异构客户端分布下的本地优化[8 (https://arxiv.org/html/2605.21563#bib.bib2)]。FedMAP通过人化聚合扩展了这一研究方向,该聚合考虑了异构临床数据下客户端的相关性,而非仅依赖数据集大小[20 (https://arxiv.org/html/2605.21563#bib.bib22)]。
表示迁移是一个互补的设计考量。领域特异性模型可以预先训练一次,之后仅调整轻量级的下游头,从而减少通信量并简化在限制性机构环境中的部署[9 (https://arxiv.org/html/2605.21563#bib.bib16)]。本研究在血液学中实例化了这一模式,将预训练的FBC表示模型与一个强制研究范围、授权和可审计性的联邦运行时相结合。
## III数据集与临床异质性
我们研究来自BloodCounts!联盟站点的两个临床差异显著的队列。
#### AUMC队列。
AUMC贡献了一个基于医院的队列,其中铁蛋白检测用于诊断铁缺乏、监测或治疗反应评估、排除铁过载,或作为更广泛的住院和门诊检查的一部分。该队列中男性占56.3%/,女性占43.7%/,中位年龄分别为63.0岁和58.0岁。中位白细胞计数为6.71×10^9 cells/l,74.8%/的记录低于10×10^9 cells/l。反应性检测方法导致病例偏向更严重的情况。铁缺乏患病率较低,而铁蛋白充足值相对较高,反映了队列中较高的炎症水平。该站点对于评估在临床复杂环境中的特异性和泛化性具有参考价值,但它贡献的阳性病例相对较少。
#### NHSBT队列。
我们使用来自INTERVAL随机对照试验[2 (https://arxiv.org/html/2605.21563#bib.bib19)]的数据,该试验评估了不同献血频率(男性:8、10、12周;女性:12、14、16周)在24个月内的安全性,其中一部分受试者还接受了长达48个月的监测[4 (https://arxiv.org/html/2605.21563#bib.bib20)]。该队列在性别上大致平衡(男性49.7%/,中位年龄46.2岁;女性50.3%/,中位年龄40.8岁)。该队列代表了一个健康人群,其中铁缺乏是贫血的主要原因。与AUMC的医院人群不同,该人群的炎症负担较低,中位白细胞计数(WBC)为6.29×10^9 cells/l(95%/的受试者WBC低于10×10^9 cells/l)。作为献血人群,其铁缺乏患病率约为19%/,高于一般人群。普遍的铁蛋白检测方法和排除已确诊贫血的病例,使该队列偏向于亚临床铁缺乏病例,这些病例与FBC指标的较温和变化相关,因此难以检测。
TABLE I: 各站点和划分的数据集统计。Pos.%是铁蛋白<15 μg/l的样本比例。仅报告训练划分的铁蛋白充足值。TableI (https://arxiv.org/html/2605.21563#S3.T1)总结了划分统计信息。在患病率、铁蛋白分布和有效阳性类数量上的差异反映了两个人群之间真实的生物学和临床工作流程差异。图1 (https://arxiv.org/html/2605.21563#S3.F1)和图2 (https://arxiv.org/html/2605.21563#S3.F2)说明了患病率差距以及铁蛋白充足值上的显著差异。图3 (https://arxiv.org/html/2605.21563#S3.F3)显示了每个站点在铁缺乏与铁蛋白充足样本之间平均激活绝对差异最大的五个嵌入维度。排名列表没有重叠。这种差异可能反映了两个人群不同的生物学特征:AUMC的医院队列炎症负担更高,这导致FBC指标的变化与NHSBT低炎症的献血人群不同,从而在嵌入空间中产生了不同的判别方向。
#### 标签与特征异质性。
在训练划分中,患病率相差近一个数量级,从NHSBT的19.5%到AUMC的2.8%,并且这种差距在验证和测试数据中持续存在。嵌入空间中的特征级异质性也很明显。综合来看,这些观察结果支持将该联邦视为结构性的非独立同分布(non-IID),其异质性由临床工作流程和人群差异驱动,而非普通的采样噪声。
参见标题图1:AUMC和NHSBT的队列组成。(a) 按划分的总样本数和铁缺乏样本数,以对数刻度显示。AUMC贡献了更大的总样本量,而NHSBT贡献了更高的铁缺乏病例相对负担。(b) 按划分的铁缺乏患病率,显示AUMC和NHSBT之间在训练集、验证集和测试集上持续存在的患病率差距。参见标题图2:AUMC和NHSBT训练集中铁缺乏组和铁蛋白充足组的铁蛋白分布,以中位数和四分位距(IQR)在对数刻度上显示。两个站点的铁蛋白充足分布存在显著差异,AUMC的值明显更高。参见标题图3:AUMC和NHSBT的五个最具判别性的嵌入维度,按铁缺乏与铁蛋白充足样本之间类别条件平均激活的绝对差异排序。
## IV方法
### IV-A任务公式化
每个站点kk拥有一个私有数据集Dk=\{\(xi(k),yi(k)\)\}i=1Nk\mathcal{D}_{k}=\{\(\mathbf{x}_{i}^{(k)},y_{i}^{(k)}\)\}_{i=1}^{N_{k}},其中xi(k)\mathbf{x}_{i}^{(k)}是从本地FBC数据导出的患者表示,而
yi(k)=1[ferritini(k)<15μg/l]y_{i}^{(k)}=\mathbf{1}[\mathrm{ferritin}_{i}^{(k)}< $15\text{\,}\mathrm{\SIUnitSymbolMicro g}\text{/}\mathrm{l}$]根据世界卫生组织指南[18 (https://arxiv.org/html/2605.21563#bib.bib17)]指示铁缺乏。目标是学习一个分类器fθ:Rd→[0,1]f_{\bm{\theta}}:\mathbb{R}^{d}\to[0,1],而无需在机构之间传输原始患者记录,其中嵌入维度dd由站点本地特征提取器确定(第IV-B节 (https://arxiv.org/html/2605.21563#S4.SS2))。
### IV-B嵌入提取
第一阶段使用DeepCBC,这是一个先前在大规模流式细胞术和阻抗数据(即原始FBC数据)上训练的基础模型[5 (https://arxiv.org/html/2605.21563#bib.bib18)]。在部署时,仅使用冻结的编码器。给定标准化的本地FBC输入xi\mathbf{x}_{i},编码器定义一个潜在后验
qφ(z∣xi)=N(μφ(xi),diag(σφ2(xi))).q_{\phi}(\mathbf{z}\mid\mathbf{x}_{i})=\mathcal{N}\!\big(\bm{\mu}_{\phi}(\mathbf{x}_{i}),\mathrm{diag}(\bm{\sigma}^{2}_{\phi}(\mathbf{x}_{i}))\big).对于下游分类,我们使用后验均值作为确定性嵌入,
zi=μφ(xi)∈R256.\mathbf{z}_{i}=\bm{\mu}_{\phi}(\mathbf{x}_{i})\in\mathbb{R}^{256}.此选择消除了推理时的随机性,并为每个患者提供了固定长度的表示。原始FBC输入和患者级嵌入保留在机构环境内,基础模型作为本地工件分发一次,而循环联邦通信仅限于分类器参数。
这种两阶段分解的动机源于优化和部署的约束。适应集中在下游决策边界,而不是需要在高度异质性队列上进行联合表示学习。与全模型联邦相比,通信开销得以降低。相似文章
联邦学习
本文解释了联邦学习作为一种保护隐私的机器学习技术的概念,该技术通过在本地设备而非中央服务器上训练模型来实现。文章详细描述了加密参数更新和聚合的过程,旨在降低数据泄露风险,同时保持模型性能。
M$^2$FedAQI: 用于异构边缘设备空气质量预测的多模态联邦学习
提出了M²FedAQI,一种轻量级多模态联邦学习框架,用于跨异构边缘设备的空气质量预测,在基准数据集上相比基线取得了显著改进。
迈向LLM的下一个前沿:私有数据训练——联邦微调的跨域基准
本文提出了一个在私有数据上对大型语言模型进行联邦微调的跨域基准,评估了LoRA、QLoRA和IA3策略在医疗和金融数据集上的表现。结果表明,联邦微调接近集中式训练的性能,并优于孤立学习,证明了在数据无法共享时通过联邦微调适配LLM的可行性。
同质与异构数据分布下联邦学习聚合策略的比较研究
本文对各种联邦学习聚合策略进行了全面的实验比较,分析了它们在homogeneous和heterogeneous数据分布下的性能和效率。
联邦嵌套学习:用于测试时自适应的自指记忆协同训练
提出联邦嵌套学习(FedNL)框架,将联邦学习重构成三级嵌套优化系统,实现自指记忆的协同训练以支持测试时自适应,从而处理非独立同分布数据和长尾分布。