用于乳腺癌复发预测的多模态机器学习

arXiv cs.LG 论文

摘要

本文探讨了整合多模态临床数据(包括治疗记录、病理报告和临床医生笔记)的方法,通过基于规则的提取和机器学习,与单模态方法相比,提高乳腺癌复发预测的准确性。

arXiv:2606.02892v1 公告类型:新 \n 摘要:乳腺癌复发是幸存者长期死亡的主要原因,需要及时准确的风险评估来指导随访和治疗计划。传统预测模型通常仅限于结构化或非结构化数据,难以捕捉完整的临床背景。本研究考察了整合多模态临床数据(包括治疗记录、病理报告和临床医生笔记)对复发预测的影响。通过将基于规则的正则表达式提取机制与基于优先级的冲突解决策略相结合,我们的方法有效地从自由文本病理叙述中恢复确定的肿瘤特征,以补充结构化记录。我们还针对以往乳腺癌研究中常用的特征集进行性能基准测试,以评估多模态整合的附加价值。在多种机器学习模型上评估了单源和多模态输入。结果表明,与单模态方法相比,多模态整合持续提高了预测准确性。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:40

# 面向乳腺癌复发预测的多模态机器学习

来源:https://arxiv.org/html/2606.02892

Xudong Wang, Anam Nawaz Khan, Christopher Brett, Xueping Li, Bing Yao¹¹¹通讯作者:byao3@utk\.edu。工业与系统工程系,田纳西大学,诺克斯维尔,TN 37996,美国。田纳西大学医学中心,诺克斯维尔,TN 37920,美国。

###### 摘要

乳腺癌复发是导致长期死亡率的主要原因,需要及时准确的风险评估来指导后续护理和治疗计划。传统的预测模型通常局限于结构化数据或非结构化数据之一,难以捕捉完整的临床背景。本研究探讨了整合多模态临床数据(包括治疗记录、病理报告和临床记录)对复发预测的影响。通过将基于规则的正则表达式提取机制与严格的基于优先级的冲突解决策略相结合,我们的方法能够有效地从自由文本病理叙述中恢复确定的肿瘤特征,以增强结构化记录。我们还与既往乳腺癌研究中常用的特征集进行基准性能比较,以评估多模态整合的附加价值。在多种机器学习模型上评估了单源和多模态输入。结果表明,与单模态方法相比,多模态整合能够持续提高预测准确性。

###### 关键词:电子健康记录,多模态学习,乳腺癌,正则表达式提取,数据协调

††期刊:IISE Transactions on Healthcare Systems Engineering

## 1 引言

乳腺癌是全球女性中最常见的恶性肿瘤,并且仍然是癌症死亡率的主要原因[^kim2025global, qian2025monte]。2020年,全球估计有230万新发病例和68.5万死亡病例,分别占所有女性新发癌症的24.5%和癌症死亡病例的15.5%[^sung2021global]。尽管在筛查和全身治疗方面取得了显著进展,复发仍然是导致长期发病的主要原因[^schwarz2025prediction]。特别是在激素受体阳性疾病中,远处复发风险在初始治疗窗口期后持续存在,诊断后20年的累积风险超过20%[^pan201720]。因此,准确的复发风险评估对于指导监测强度、确定辅助治疗决策以及支持个体化生存护理至关重要。

目前的预后建模主要依赖于美国癌症联合委员会(AJCC)定义的临床病理变量,包括肿瘤-淋巴结-转移(TNM)分期、组织学分级和生物标志物状态,即雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2)[^giuliano2017breast, amin2017ajcc]。美国临床肿瘤学会/美国病理学家学院(ASCO/CAP)的专业指南规范了这些标志物的评估标准,直接影响分期和治疗选择[^allison2020estrogen, wolff2023human]。虽然电子健康记录(EHR)为此类建模提供了丰富的数据源,但现实世界的临床数据具有异质性和碎片化的特点[^kaur2025enhancing]。仅依赖结构化数据的既往研究通常缺少自由文本叙述中包含的细微信息。例如, ? \(?\) 利用结构化EHR变量预测复发,但指出难以捕捉通常隐藏在自由文本记录中的精细肿瘤特征。相反,利用非结构化文本的方法证明了叙述信息的价值。例如, ? \(?\) 表明,与仅依赖结构化编码的基线方法相比,整合从临床记录中提取的特征可显著提高预测判别能力。

最近的多模态乳腺癌复发模型通过端到端融合架构整合影像、临床和分子信号,实现了强大的预测性能。例如,Yao等人[^yao2022icsda]提出了一个整合病理、临床和基因表达数据的ICSDA框架,Zhang等人[^zhang2025multimodal]开发了一个将复发预测与Oncotype DX风险相关联的多模态深度学习模型。这些研究证明了通过潜在特征融合和表示学习结合异构证据源的价值。然而,大多数现有框架假设底层临床变量已经可靠且跨源一致地整理,这一假设在常规EHR环境中经常被违反。

利用EHR进行复发预测的一个重大挑战是数据源之间的不一致性。常规临床数据经常碎片化地分布在登记处、治疗总结和叙述性文档中,导致不完整和不一致[^weiskopf2013methods, ma2025large]。虽然概要病理报告相对于自由文本提高了一致性[^sluijter2016effects, renshaw2018synoptic],并且登记处链接增强了变量捕获[^charlton2022cancer],但关键属性如组织学分级、Ki-67和淋巴血管侵犯(LVI)在结构化字段中经常遭受块状缺失。这减少了有效样本量并削弱了临床医生的信任。此外,手工数据输入引入了转录错误;确定性信息通常源自病理报告,但在转录到下游系统时容易出错[^weiskopf2013methods, renshaw2018synoptic, wang2024rule]。

为了解决这些挑战,本文提出了一个用于乳腺癌复发预测的多模态数据协调框架。使用田纳西大学医学中心(UTMC)的数据,我们将三种常规可用数据源,即治疗总结(TS)、登记摘要(ABS)和病理报告(PATH),协调到一个统一且可供学习使用的格式中。我们的方法利用基于规则的正则表达式提取器从病理叙述中恢复高保真的预后变量,并应用基于优先级的逻辑来解决各源之间的差异。通过量化这种融合对数据完整性的影响以及在一系列机器学习模型上的基准性能,我们证明了临床保真的多源整合相对于单源基线能够产生更优越的预测判别能力。

## 2 研究背景

### 2.1 基于结构化EHR的预测模型

EHR[^wang2026muse, wang2024multi]的广泛采用促进了肿瘤学自动化决策支持工具的发展。传统的机器学习方法,包括逻辑回归(LR)、支持向量机(SVM)和随机森林(RF),已广泛应用于使用结构化临床变量预测乳腺癌复发[^jiang2025deep, ahmad2013using, al2018breast, lu2023predictive, hosmer2013applied, hearst1998support, breiman2001random]。早期研究证明了将机器学习应用于术后复发风险预测的可行性,但受到样本量有限和方法学范围的限制。例如, ? \(?\) 使用来自679名术后患者的数据开发了一个朴素贝叶斯分类器,整合临床病理变量实现了约80%的预测准确率,超过了基于指南的风险分层。这项工作扩展了早期由 ? \(?\) 进行的调查,后者使用SVM证明数据驱动模型可以改进专家导出的评分系统。

最近的研究通过利用更大规模的前瞻性队列和更具表现力的建模技术解决了这些局限性。值得注意的是, ? \(?\) 在一个纳入了治疗质量指标的前瞻性队列中,对多种机器学习算法进行了10年复发预测的对比评估,证明了其风险分层一贯优于传统方法。类似地, ? \(?\) 将梯度提升和深度神经网络模型应用于结构化EHR数据,在复发风险估计中实现了改进的判别能力和校准能力。系统综述表明,集成方法和深度学习架构通常提供最强的预测性能,在选定的患者亚组中报告的受试者工作特征曲线下面积(AUROC)值接近0.9[^el2023evolution]。然而,大多数现有模型隐含地将结构化EHR变量视为真实情况,假设记录的数据既完整又正确。在现实世界的肿瘤学实践中,这一假设经常被违反:EHR数据往往在就诊之间碎片化,受到系统性缺失的影响,并且容易受到转录和编码错误的影响,所有这些都可能引入偏差并降低模型可靠性[^carrell2014using]。

### 2.2 基于临床文本和登记数据的模型

为了克服结构化数据的局限性,最近的研究越来越多地利用非结构化临床文本和癌症登记数据。自然语言处理(NLP)技术已被用于从肿瘤学记录和病理报告中提取丰富的表型信息,有效地恢复结构化字段中编码不完整的复发结果。例如, ? \(?\) 开发了一个基于大量临床笔记训练的弱监督深度学习模型。通过结合人工标注的标签和NLP派生的标签,他们的模型在远处复发预测中实现了高AUROC,证明了在人工病历审查不可行时叙述文本的价值。

当前的NLP方法通常分为两类:基于规则的系统和深度学习模型(例如,像BERT这样的Transformer)[^vaswani2017attention, devlin2019bert]。虽然深度学习提供了高召回率和泛化能力,但基于规则的正则表达式系统由于其确定性的精确性和可解释性,仍然是提取标准化实体(如TNM分期和受体状态)的金标准。例如, ? \(?\) 证明,对于结构化病理解析,特定领域的基于规则提取器可以实现接近完美的特异性。这种精确性是肿瘤学中生成可靠训练标签的关键要求,因为分期错误分类会严重偏差风险模型。与文本挖掘并行的是,癌症登记处提供关于诊断和分期的整理数据,但与实时EHR相比,经常遭受报告延迟。跨机构关联研究,例如由 ? \(?\) 进行的研究,表明当标签被仔细协调时,结合登记处和EHR数据可以产生高性能模型。然而,这些方法中有许多使用现有数据集,而没有详细说明解决冲突值的上游过程或量化多源提取如何影响缺失模式。

### 2.3 多源临床数据整合

认识到不同数据模式的互补性,多源预测模型已成为一个有前景的方向。将临床变量与影像、放射组学或分子数据相结合的研究已经显示出优于单模式基线的预测性能。例如, ? \(?\) 将常规临床变量与从组织学切片中提取的深度学习特征融合以预测复发评分,其性能优于仅依赖于临床的列线图。此外, ? \(?\) 报告称,将MRI衍生特征与标准临床数据相结合提高了HER2低表达乳腺癌的预测准确性。更广泛地说,高性能的多模态架构如ICSDA[^yao2022icsda]和最近的深度融合复发模型[^zhang2025multimodal]表明,病理、临床、影像和基因组学流可以共同改善风险预测。 ? \(?\) 的一项系统综述同样得出结论,多模态方法通常通过捕获多样化的生物信号来实现卓越性能。

尽管取得了这些进展,但在常规EHR环境中整合异构数据源的研究仍然不足。特别是,在病理报告、癌症登记处和临床记录之间解决不一致的分期、生物标志物和治疗信息带来了独特的方法学挑战。与多组学或基于影像的融合不同,在多组学或影像融合中数据流通常是相加的,而EHR衍生的源经常重叠并表现出依赖于源的缺失。现有模型通常操作在预先整理的特征集或潜在神经表示上,这可能会掩盖单个临床变量的来源并限制医疗保健环境中的可审计性[^amann2020explainability]。大型基于登记处的数据集在关键预后字段(包括分期和生物标志物变量)中也存在大量缺失[^yang2021prevalence];因此,仅依赖结构化变量的模型可能继承系统性不完整性。同样,先前的EHR和登记处整合系统提高了数据可用性,但通常没有明确建模应如何跨源解决冲突值[^gonzalez2023machine, goyal2024multi, linkov2018integration]。

本研究通过开发一个稳健、可重复的流水线来协调常规临床数据流,从而解决这些差距,重点在于解决跨源不一致性、保留特征来源以及通过有针对性的文本提取恢复缺失的预后变量。

## 3 研究方法

参见图1:流水线概览,包括摄取、协调、预处理和建模。TS、 ABS和PATH使用优先级层级PATH≻ABS≻TS进行整合。

本节描述了所提出的用于自动化乳腺癌复发预测的多模态数据协调框架。统一的多模态数据集记为D=\{\(x\(p\),y\(p\)\)\}p=1N0,其中x\(p\)∈RD表示患者p的DD维协调临床病理特征向量,y\(p\)是二分类结果标签,y\(p\)=1表示术后5年内有记录的复发,否则y\(p\)=0。图[1 (https://arxiv.org/html/2606.02892#S3.F1)]说明了我们框架的整体架构,由三个核心模块组成:多源信息提取、基于优先级的协调和特征构建。

### 3.1 多源信息提取

为了捕获患者临床状态的全局视图,我们整合了来自三种异构源的数据:结构化的TS、半结构化的ABS和非结构化的PATH。对每个源应用定制的提取机制,以恢复关键的预后变量,包括TNM分期、组织学分级和生物标志物状态(ER、PR和HER2)(参见附录中表4 (https://arxiv.org/html/2606.02892#A1.T4)的完整描述)。图2 (https://arxiv.org/htm

相似文章

从结构化临床数据预测心血管风险的大语言模型

arXiv cs.CL

本文提出了一种混合框架,将结构化临床数据与LLM生成的叙述相结合,用于冠状动脉疾病预测,在变量提取方面实现了高保真度,并比较了机器学习模型与基于LLM的零样本和少样本分类。

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL

MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。