融合并非放之四海而皆准：面向时间-事件建模的跨模态表示对齐

arXiv cs.AI 2026/06/16 04:00 论文

摘要

介绍了一种基于基础模型的框架，用于CT影像与纵向EHR数据之间的跨模态表示对齐，以实现时间-事件预测，并在肺栓塞和心血管疾病队列上评估了融合策略。

arXiv:2606.15038v1 公告类型：新 \n 摘要：由于模态不平衡和分布偏移，从多模态临床数据中进行精确的时间-事件（TTE）预测仍然具有挑战性。我们引入了一种基于基础模型的框架，用于CT影像与纵向EHR数据之间的跨模态表示对齐，旨在跨任务和机构进行泛化。CT和EHR模态分别使用领域特定的基础模型进行编码，并通过四种原则性融合策略在共享隐空间中对齐：晚期融合、对比对齐、交叉注意力和协同注意力。我们在大规模多机构队列上评估了两个临床不同的TTE任务：肺栓塞（PE）死亡率和心血管疾病（CVD）结局（PE：训练集N=3,099；内部验证集1,098；外部验证集435；CVD：训练集N=2,951；内部验证集837；外部验证集682）。当模态贡献相当时，融合在单模态基线的基础上持续将一致性指数提高了1.5-5.4%。总体而言，对比多模态融合，特别是使用CLMBR表示时，在PE死亡率预测方面提供了最一致且统计上最稳健的改进。对于MACE，交叉注意力（one-hot）达到了最高的内部性能，而图像引导的协同注意力在外部性能上表现最佳。因此，我们引入了一个可泛化的基于基础模型的跨模态对齐框架，并首次系统分析了TTE预测中模态不平衡下的融合行为。我们的结果确立了任务感知多模态对齐作为稳健泛化和可扩展临床部署的必要设计原则。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:43

# 融合并非一刀切：面向时间-事件建模的跨模态表示对齐
来源: https://arxiv.org/html/2606.15038
Weijie Chen 亚利桑那州立大学 梅奥诊所
David Le 亚利桑那州立大学 梅奥诊所
Amara Tariq 亚利桑那州立大学 梅奥诊所
Alex Wallace 亚利桑那州立大学 梅奥诊所
Matthew Stib 亚利桑那州立大学 梅奥诊所
Juan Maria Farina 亚利桑那州立大学 梅奥诊所
Chadi Ayoub 亚利桑那州立大学 梅奥诊所
Reza Arsanjani 亚利桑那州立大学 梅奥诊所
Imon Banerjee 亚利桑那州立大学 梅奥诊所

###### 摘要

从多模态临床数据中进行准确的时间-事件（TTE）预测因模态不平衡和分布偏移而仍具挑战性。我们提出了一种基于基础模型的框架，用于CT影像和纵向EHR数据之间的跨模态表示对齐，旨在跨任务和机构进行泛化。CT和EHR模态分别使用特定领域的基础模型进行编码，并通过四种原则性融合策略在共享潜在空间中对齐：后融合、对比对齐、交叉注意力、共注意力。我们在大规模多机构队列上评估了两个临床不同的TTE任务——肺栓塞（PE）死亡率和心血管疾病（CVD）结局（PE：训练集N=3,099；内部测试1,098；外部测试435；CVD：训练集N=2,951；内部测试837；外部测试682）。当模态贡献可比时，融合一致地将一致性指数提高1.5–5.4%，优于单模态基线。总体而言，对比多模态融合——尤其是使用CLMBR表示时——提供了最一致且统计上显著的改进，特别是在PE死亡率预测方面。对于MACE，交叉注意力（one-hot）实现了最高的内部性能，而图像引导的共注意力实现了最佳的外部性能。因此，我们引入了一个通用的基于基础模型的跨模态对齐框架，并首次系统分析了TTE预测中模态不平衡下的融合行为。我们的结果确立了任务感知的多模态对齐作为稳健泛化和可扩展临床部署的必要设计原则。

## 1 引言

医疗中的预后需要估计不良结局的可能性及其发生时间。对于肺栓塞（PE）和心血管疾病（CVD）等高风险疾病，患者轨迹具有异质性，准确的时间风险分层对于指导监测、干预和资源分配至关重要。时间-事件（TTE）模型为随时间估计个体化风险提供了自然框架，不同于仅预测事件是否发生的二分类方法[20,15]。传统风险评分依赖于静态表格变量，往往忽略高维影像数据和纵向背景[16,9]。在PE中，肺栓塞严重程度指数（sPESI）等评分表现出校准可变，而新证据表明，将CT肺动脉成像（CTPA）与临床数据结合可以改善结局预测[23,4]。将传统风险评分与CT衍生生物标志物结合可提高预后性能[5]。

多模态深度学习提供了一种集成互补预后信息的原则性方法：影像捕捉疾病严重程度的结构性和空间性标志物，而纵向EHR数据编码合并症、治疗史和时间动态。现有多模态方法通常启发式地选择融合策略，且融合机制与时间目标之间的相互作用仍未探索[15,7]。最近，联合和基于注意力的融合方法[11,17]已成为集成异质模态的强大策略。这些方法采用交叉注意力[19]、共注意力[10,8]和对比对齐[21,6]等机制，基于上下文相关性动态重新加权各模态的贡献。然而，用于3D影像和临床序列的基础模型通常基于通用目标进行预训练，并未针对TTE预测进行优化，导致潜在表示对于时间风险建模而言结构不良。跨模态对齐可以将这些嵌入重塑为时间预测信号，但现有方法通常依赖启发式融合策略，且对齐机制与生存目标之间的相互作用仍未充分探索[15,7]。

我们提出了一种用于时间-事件（TTE）预测的多模态框架，该系统性地整合了监督融合策略——对比对齐、交叉注意力和双向共注意力，并与传统拼接进行评估。以肺栓塞（PE）后的死亡率和长期心血管结局作为基准任务，我们展示了融合策略的选择如何影响分布偏移下的时间风险建模。这些发现为设计利用互补影像和EHR信息的有效多模态生存模型提供了实践指导。

## 2 方法

图1说明了用于时间-事件预测的多模态融合框架。首先使用特定领域的基础模型[13]对CT扫描和EHR数据进行编码，生成影像和临床嵌入，然后在潜在空间中融合，并利用生存目标进行优化[12]。梯度仅通过融合和任务特定层传播，而预训练的基础编码器在所有实验中保持冻结。

### 2.1 基础模型 - 影像和EHR表示

*2D医学影像基础模型——MedImageInsight:* 我们使用了MedImageInsight（MII）[1]，一个预训练的医学影像基础模型，将2D切片编码为1×1024嵌入。对于3D CT容积，首先选择包含心脏结构的轴向切片。对于PE，应用软组织窗，将体素强度裁剪至[-1350, 150] HU；对于MACE，裁剪至[-125, 225] HU。每个切片由MII独立编码，产生N×1024嵌入，然后沿z轴平均以获得单个1×1024容积级表示。*EHR基础模型——CLMBR特征:* 我们使用预训练的CLMBR-T-base模型[2]，这是一个自回归Transformer，通过自监督下一代码预测在纵向结构化EHR数据上训练。该模型编码按时间排序的临床代码，并生成768维的患者级嵌入。我们利用公开的斯坦福训练检查点，提取固定嵌入，不进行额外微调。作为备选的EHR表示，我们还探索了手动整理的one-hot编码，其中选择任务特定特征——包括人口统计学、实验室结果、药物、诊断和程序代码——并二值化为one-hot向量用于下游建模。

参见图示说明

参见图示说明

(a) 传统拼接

参见图示说明

(b) 提出的对比

参见图示说明

(c) 提出的共注意力

参见图示说明

(d) 提出的交叉注意力

参见图示说明

图1：多模态生存框架及融合策略概览。使用特定领域的基础编码器对胸部CT和纵向EHR进行跨模态对齐，生成用于时间-事件预测的共享嵌入，影像-only和EHR-only基线分别来自各自的编码器。潜在空间中的融合变体——(a) 嵌入的传统拼接，(b) 提出的对比学习，(c) 共注意力，以及(d) 对称交叉注意力。

### 2.2 生存模型：带跨模态对齐的时间-事件（TTE）

对于TTE建模，我们对单模态或融合嵌入应用多层感知机（MLP）预测头，并优化一个考虑右删失观测的负对数似然（NLL）生存目标。梯度通过融合模块传播，实现在生存目标下对联合表示的端到端优化。隐藏层宽度根据输入嵌入维度按比例缩放，确保跨异质特征类型的模型容量均衡。这种公式通过建模风险函数和删失机制，允许对事件时间进行概率估计。NLL损失通过网络（包括融合模块）的反向传播，使得共享表示能够被时间上和临床上相关的特征塑造，从而在观测和删失条件下提高预测性能。

*对比:* 受CLIP风格训练[14,22]的启发，我们设计了一个两步训练，首先使用对称对比目标对齐影像和EHR嵌入。给定一个大小为N的批次，第i个影像和第i个EHR形成正对，而所有其他组合作为负样本。相似度分数定义为：S_ij = sim(h_i^img, h_j^ehr) / τ, L = -1/N ∑_{i=1}^N [log(e^{S_ii} / ∑_{j=1}^N e^{S_ij}) + log(e^{S_ii} / ∑_{j=1}^N e^{S_ji})]。在对比预对齐之后，融合嵌入用于训练时间-事件（TTE）生存模型。

*交叉注意力:* 在端到端学习中，我们使用交叉注意力融合多模态嵌入（影像+EHR），使得一种模态可以关注另一种模态中的重要信号，然后在这种融合表示下以TTE目标进行训练。这使得模型能够同时以*监督方式*学习每个模态嵌入中的哪些特征可预测事件可能发生的时间。一旦我们从影像和EHR获得基础模型编码：h_img = f_enc,img(x_img) 和 h_ehr = f_enc,ehr(x_ehr)，我们通过交叉注意力计算融合特征h_fused如下：h_fused = concat(h_ehr, A_{ehr←img}, h_img, A_{img←ehr})，其中
Q_ehr = W_Q^{(e)} h_ehr, K_img = W_K^{(e)} h_img, V_img = W_V^{(e)} h_img
A_{ehr←img} = softmax(Q_ehr K_img^T / √d_k) V_img
Q_img = W_Q^{(i)} h_img, K_ehr = W_K^{(i)} h_ehr, V_ehr = W_V^{(i)} h_ehr
A_{img←ehr} = softmax(Q_img K_ehr^T / √d_k) V_ehr
其中W_Q^{(e)}, W_K^{(e)}, W_V^{(e)}是EHR-to-Image交叉注意力机制的投影矩阵，查询来自EHR嵌入，键和值来自影像嵌入。具体来说，Q_ehr = W_Q^{(e)} h_ehr, K_img = W_K^{(e)} h_img, V_img = W_V^{(e)} h_img。反向的Image-to-EHR交叉注意力采用相同表示，但模态角色互换。这些注意力机制的输出 A_{ehr←img} 和 A_{img←ehr} 与其各自的模态嵌入拼接，形成融合特征向量 h_fused。然后该融合表示用于时间-事件（TTE）预测，公式化为：L_{TTE} = -∑_{i=1}^N log p(T_i, δ_i | h_{fused,i}) + λ‖θ‖_2^2，其中T_i表示受试者i的观测或删失时间，δ_i是事件指示符，λ是正则化超参数，θ代表模型在投影层和注意力机制中的可训练参数。

*共注意力:* 为保留一种模态的主要知识并使用另一种作为引导模态，我们改造了共注意力机制。在该模型中，一种模态（例如h_ehr）作为查询，而另一种h_img同时作为共注意力计算中的键和值：
CoAttn_{ehr→img}(h_ehr, h_img) = softmax(Q_ehr K_img^T / √d_k) V_img
其中Q_ehr = W_Q^{(e)} h_ehr, K_img = W_K^{(e)} h_img, V_img = W_V^{(e)} h_img。注意力分数通过比较投影查询Q = W_q^{ehr} h_ehr与投影键K = W_k^{img} h_img来计算，并除以√d_k以保持数值稳定。之后，应用softmax操作获得共注意力矩阵A_{coattn} = softmax(Q K^T / √d_k)，该矩阵为影像模态的不同区域分配重要性权重。这些权重随后用于计算影像特征的加权和，产生精炼表示 ĥ_img 如下：
ĥ_img = A_{coattn} (W_v^{img} h_img) = softmax( (W_q^{ehr} h_ehr) (W_k^{img} h_img)^T / √d_k ) W_v^{img} h_img

融合并非放之四海而皆准：面向时间-事件建模的跨模态表示对齐

相似文章

探测、融合与可信度：面向多模态癌症分析的基础模型表征系统评估

DT-Transformer：一个在真实世界健康系统上进行疾病轨迹预测的基础模型

融合之前，先问保留什么：多模态信号的上下文校准

LongMoE：基于轨迹感知的混合专家模型的纵向多模态学习

关于时间序列预训练中归纳偏差的作用：以临床时间序列学习通用表征的案例研究

提交意见反馈