LongMoE：基于轨迹感知的混合专家模型的纵向多模态学习

arXiv cs.LG 2026/06/10 04:00 论文

摘要

LongMoE提出了一个统一框架，同时解决多模态临床学习中的模态缺失和纵向动态问题，利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明，在缺失模态情况下鲁棒性得到提升，同时在完整模态设置下仍具有竞争力。

arXiv:2606.09907v1 公告类型: new 摘要：多模态临床学习在整合包括影像、文本和个性化健康记录在内的多样化患者数据方面日益重要。然而，它面临两个基本挑战：i) 模态缺失，即在某次患者就诊时任意模态子集不可用；ii) 纵向动态，即观察结果的诊断意义取决于患者随时间变化的疾病轨迹。现有方法孤立地处理这些挑战：缺失模态框架将每次就诊视为独立的静态快照，丢弃时间上下文；而纵向模型通常假设模态完全可用，并在系统性模态不完整的情况下性能下降。我们提出了LongMoE（纵向混合专家模型），这是一个统一框架，能够同时应对这两个挑战。LongMoE结合了上下文感知插补模块、注意力令牌化模块（用于捕捉不规则就诊序列的频域时间模式）、轨迹感知编码器（用于建模疾病进展）以及上下文条件稀疏MoE路由（用于患者特定的专家选择）。在ADNI、OASIS-3和MIMIC-IV上的实验表明，LongMoE在缺失或弱同期模态下提升了鲁棒性，并在完整模态场景中保持竞争力，为纵向感知的多模态临床学习奠定了坚实基础。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:17

# LongMoE：基于轨迹感知的混合专家纵向多模态学习
来源：https://arxiv.org/html/2606.09907
Maxx Richard Rahman 德国人工智能研究中心（DFKI）萨尔布吕肯，德国 [email protected]&Prakhar Kumar 德国人工智能研究中心（DFKI）萨尔布吕肯，德国 [email protected]&Wolfgang Maass 德国人工智能研究中心（DFKI）萨尔布吕肯，德国 [email protected]
###### 摘要
多模态临床学习对于整合包括影像、文本和个性化健康记录在内的多样化患者数据日益重要。然而，它面临两个基本挑战：i) 模态缺失，即在特定患者就诊时，任意子集的模态可能不可用；ii) 纵向动态性，即观察结果的诊断意义取决于患者随时间演变的疾病轨迹。现有方法孤立地应对这些挑战：缺失模态框架将每次就诊视为独立的静态快照，丢弃了时间上下文；而纵向模型通常假设模态完全可用，并在系统性的模态不完整情况下性能下降。我们提出LongMoE（纵向混合专家模型），这是一个统一框架，旨在共同解决这两个挑战。LongMoE结合了上下文感知插补模块、通过注意力式分词模块捕捉不规则就诊序列中频域时序模式、用于建模疾病进展的轨迹感知编码器，以及用于患者特定专家选择的上下文条件稀疏MoE路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明，LongMoE在缺失或弱同期模态下提高了鲁棒性，并在全模态设置下保持竞争力，为纵向感知的多模态临床学习奠定了坚实基础。

## 1 引言
多模态学习已成为临床决策支持中的一个基本挑战，整合互补数据源能产生比任何单一模态更丰富、更可靠的预测[1 (https://arxiv.org/html/2606.09907#bib.bib1),2 (https://arxiv.org/html/2606.09907#bib.bib2)]。在阿尔茨海默病（AD）中，这种整合能力在临床上必不可少，即病理同时表现在结构性神经影像、功能生物标志物、认知评估和遗传风险概况中，每个都提供独特且部分非重叠的诊断信号[4 (https://arxiv.org/html/2606.09907#bib.bib4),5 (https://arxiv.org/html/2606.09907#bib.bib5),6 (https://arxiv.org/html/2606.09907#bib.bib6)]。在实践中，真实世界队列表现出普遍的*模态缺失*：由于异质性采集协议、资源约束和时间依赖的检测可用性，任何给定的患者就诊只能获得完整模态面板的一个子集[7 (https://arxiv.org/html/2606.09907#bib.bib7),8 (https://arxiv.org/html/2606.09907#bib.bib8)]。现有方法要么将训练限制在完全观测的患者上，要么应用上下文无关的插补策略，如零填充和全局均值替代[9 (https://arxiv.org/html/2606.09907#bib.bib9),10 (https://arxiv.org/html/2606.09907#bib.bib10)]。一个叠加的困难是AD患者并非同质人群，即个体在遗传特征、合并症和进展速率上系统性地不同，因此每种模态的相对信息量在不同亚组间差异很大[4 (https://arxiv.org/html/2606.09907#bib.bib4)]。随着LL种模态，模型需要处理多达2L−12^L-1种不同的观测模式，每种模式都诱导出不同的信息结构，融合必须在这些结构上进行。一个单一融合网络在结构上不适合这种设置[12 (https://arxiv.org/html/2606.09907#bib.bib12)]，因此激发了稀疏混合专家（SMoE）架构[11 (https://arxiv.org/html/2606.09907#bib.bib11),43 (https://arxiv.org/html/2606.09907#bib.bib43)]，其中学习的路由器根据观测到的模态组合动态激活一个稀疏的专门专家网络子集，提供模态模式感知和亚组感知的融合，而无需全密集模型的开销。

阿尔茨海默病是一种缓慢进展的疾病，在数年甚至数十年内展开，任何观察结果的诊断意义都与其纵向背景密不可分[24 (https://arxiv.org/html/2606.09907#bib.bib24),20 (https://arxiv.org/html/2606.09907#bib.bib20)]。临床上重要的不是单次就诊时生物标志物的绝对值，而是它在患者个体衰退轨迹上的位置。例如，中等海马体积读数具有完全不同的预后权重，这取决于它代表稳定的平台期还是陡峭的萎缩曲线[4 (https://arxiv.org/html/2606.09907#bib.bib4)]。因此，*生物标志物变化的速度和模式*在连续就诊之间是比任何横截面测量更强的疾病阶段预测因子[24 (https://arxiv.org/html/2606.09907#bib.bib24),19 (https://arxiv.org/html/2606.09907#bib.bib19)]。基于GRU的模型[38 (https://arxiv.org/html/2606.09907#bib.bib38),19 (https://arxiv.org/html/2606.09907#bib.bib19)]捕捉纵向依赖，但需要在每次就诊时提供完整的模态输入，并在结构化缺失下失败，而基于Transformer的模型[22 (https://arxiv.org/html/2606.09907#bib.bib22),23 (https://arxiv.org/html/2606.09907#bib.bib23)]提供了更强的表达能力，但尚未适应不规则就诊间隔、任意模态组合和人群层面异质性的联合挑战。最近的工作Flex-MoE[7 (https://arxiv.org/html/2606.09907#bib.bib7)]代表了最接近的先前工作，引入了一个SMoE框架，带有可学习的缺失模态库和两阶段路由策略，可容纳任意模态子集。然而，Flex-MoE和所有并发的缺失模态方法[8 (https://arxiv.org/html/2606.09907#bib.bib8),17 (https://arxiv.org/html/2606.09907#bib.bib17),16 (https://arxiv.org/html/2606.09907#bib.bib16)]都将每次临床就诊视为独立的静态快照，这意味着路由机制不接收关于患者先前就诊、生物标志物历史或演变的模态可用性的信息，因此在结构上无法进行轨迹感知的融合。结果是存在一个精确且重要的空白：*没有现有模型共同解决模态缺失和纵向动态性*。我们通过LongMoE填补了这一空白，其贡献如下：
- •我们提出了LongMoE，它共同解决了临床多模态学习中的模态缺失和纵向时间动态性。一个上下文感知插补模块、一个轨迹感知Transformer编码器和一个上下文条件SMoE路由层共同处理每次就诊时的任意模态子集。
- •我们引入了一个注意力式分词模块，该模块将模态级交叉注意力与连续时间多频位置编码相结合，这是一种对非均匀采样就诊序列的可证明单射时间表示，它编码了缓慢的纵向趋势和快速的速率变化，而不假设均匀的就诊间隔。
- •通过在ADNI、OASIS-3和MIMIC-IV上的实验，我们表明LongMoE在缺失或弱同期模态下优于最先进的基线方法。

## 2 相关工作
##### 多模态学习中的缺失模态处理。多模态学习已在视觉、语言和医疗保健领域得到广泛研究[1 (https://arxiv.org/html/2606.09907#bib.bib1),2 (https://arxiv.org/html/2606.09907#bib.bib2)]，针对AD的研究证实，结合影像、遗传和临床数据始终优于任何单一模态[20 (https://arxiv.org/html/2606.09907#bib.bib20),21 (https://arxiv.org/html/2606.09907#bib.bib21)]。规范融合架构包括TF[16 (https://arxiv.org/html/2606.09907#bib.bib16)]、MulT[17 (https://arxiv.org/html/2606.09907#bib.bib17)]和MAG[18 (https://arxiv.org/html/2606.09907#bib.bib18)]，它们提供了强基准，但统一假设模态完全可用，而全局插补策略如零填充[31 (https://arxiv.org/html/2606.09907#bib.bib31)]和包括ShaSpec[10 (https://arxiv.org/html/2606.09907#bib.bib10)]及mmFormer[9 (https://arxiv.org/html/2606.09907#bib.bib9)]在内的学习方法将插补条件建立在群体统计而非个体患者上下文上，限制了在罕见模态组合上的有效性。最直接相关的先前工作是Flex-MoE[7 (https://arxiv.org/html/2606.09907#bib.bib7)]和FuseMoE[8 (https://arxiv.org/html/2606.09907#bib.bib8)]。Flex-MoE通过一个可学习的缺失模态库和一个两阶段SMoE设计（全模态的G-Router；不完整样本的S-Router）处理任意模态组合。FuseMoE对可变模态集应用动态专家输入掩码，但两者都将每次就诊视为独立的静态快照，完全丢弃了患者的历史轨迹。

##### 纵向建模与混合专家。疾病进展的纵向建模一直依赖循环架构[37 (https://arxiv.org/html/2606.09907#bib.bib37),38 (https://arxiv.org/html/2606.09907#bib.bib38),39 (https://arxiv.org/html/2606.09907#bib.bib39)]，包括基于GRU的多模态模型Lee-MMGRU[19 (https://arxiv.org/html/2606.09907#bib.bib19)]，该模型在AD中捕捉影像、临床和遗传模态之间的时间动态，但需要在每次就诊时提供完整的模态观测，因此无法利用部分观测的患者。基于Transformer的序列模型[22 (https://arxiv.org/html/2606.09907#bib.bib22),23 (https://arxiv.org/html/2606.09907#bib.bib23)]在很大程度上取代了循环架构，不规则时间序列Transformer[40 (https://arxiv.org/html/2606.09907#bib.bib40),41 (https://arxiv.org/html/2606.09907#bib.bib41)]表明注意力通过学习位置编码可以容纳不规则采样。混合专家范式[43 (https://arxiv.org/html/2606.09907#bib.bib43),42 (https://arxiv.org/html/2606.09907#bib.bib42)]通过稀疏门控MoE[11 (https://arxiv.org/html/2606.09907#bib.bib11)]、Switch Transformer[12 (https://arxiv.org/html/2606.09907#bib.bib12)]和Mixtral[13 (https://arxiv.org/html/2606.09907#bib.bib13)]经历了复兴。在多模态设置中，LiMoE[14 (https://arxiv.org/html/2606.09907#bib.bib14)]、SM4[15 (https://arxiv.org/html/2606.09907#bib.bib15)]、MMoE[33 (https://arxiv.org/html/2606.09907#bib.bib33)]、Mod-Squad[34 (https://arxiv.org/html/2606.09907#bib.bib34)]、DSelect-kk[36 (https://arxiv.org/html/2606.09907#bib.bib36)]、Expert Choice[35 (https://arxiv.org/html/2606.09907#bib.bib35)]和稀疏视觉MoE[32 (https://arxiv.org/html/2606.09907#bib.bib32)]推进了专家专门化和负载均衡路由，但没有一个解决了在不规则、部分观测的临床就诊序列上纵向序列建模与缺失模态处理的交集问题。

## 3 预备知识
##### 纵向患者记录。将患者的临床历史表示为有序的TT次就诊序列，V={v1,v2,...,vT}\\mathcal{V}=\{v_1,v_2,\ldots,v_T\}，其中每次就诊vtv_t发生在时间戳τt∈R>0\\tau_t\\in\\mathbb{R}_{>0}。就诊间间隔Δt=τt−τt−1\\Delta_t=\\tau_t-\\tau_{t-1}是不规则且患者特定的，反映了真实世界临床数据收集的非均匀特性。

##### 多模态观测。在每次就诊vtv_t，观测到LL种模态的一个子集。令M={m1,m2,...,mL}\\mathcal{M}=\{m_1,m_2,\ldots,m_L\}表示完整的可用模态集。对于阿尔茨海默病进展建模，这些包括：*(i)* 结构性MRI扫描xtmri∈R512×512\\mathbf{x}^{\\mathrm{mri}}_t\\in\\mathbb{R}^{512\\times 512}，*(ii)* 临床评估分数xtclin∈R64\\mathbf{x}^{\\mathrm{clin}}_t\\in\\mathbb{R}^{64}，*(iii)* CSF/生物样本面板xtbio∈Rb\\mathbf{x}^{\\mathrm{bio}}_t\\in\\mathbb{R}^{b}，以及*(iv)* 基因检测数据xtgen∈Rg\\mathbf{x}^{\\mathrm{gen}}_t\\in\\mathbb{R}^{g}。在实际中，并非所有模态在每次就诊时都能被观测到。任何给定的就诊可能只产生一种或两种模态，这使得静态全输入假设不现实。令Ot∈{0,1}L\\mathbf{O}_t\\in\\{0,1\\}^L为就诊tt时的二元观测掩码，其中Ot,l=1O_{t,l}=1如果模态mlm_l被观测到，否则Ot,l=0O_{t,l}=0。给定患者直到当前就诊vtv_t（包括该次就诊）的完整纵向记录，目标是预测诊断标签yt∈Y={CN,MCI,AD}y_t\\in\\mathcal{Y}=\{\\text{CN},\\,\\text{MCI},\\,\\text{AD}\}，其中CN表示认知正常，MCI表示轻度认知障碍，AD表示阿尔茨海默病。

## 4 LongMoE架构
参见图1：LongMoE架构总览，该架构通过四个顺序模块处理患者的纵向就诊序列：*(i)* 模态特定嵌入，*(ii)* 模态插补与分词，*(iii)* 轨迹感知纵向建模，以及*(iv)* 上下文感知MoE路由。LongMoE通过四个顺序组合的模块处理纵向多模态患者数据（图1 (https://arxiv.org/html/2606.09907#S4.F1)）：*(i)* 模态特定嵌入，*(ii)* 模态插补与分词，*(iii)* 轨迹感知纵向建模，以及*(iv)* 上下文感知MoE路由。

### 4.1 模态特定嵌入
对于每种模态ml∈Mm_l\\in\\mathcal{M}，我们定义一个编码器φl:Xl→Rd\\phi_l:\\mathcal{X}_l\\to\\mathbb{R}^d，其中Xl\\mathcal{X}_l是模态ll的本机输入空间。编码器架构的选择与每种模态的结构特性相匹配：
- •MRI (xtmri∈R512×512\\mathbf{x}^{\\mathrm{mri}}_t\\in\\mathbb{R}^{512\\times 512})：一个3D卷积编码器后接一个MLP投影头，用于捕捉局部体积结构和全局形态特征：etmri=MLP(Conv3D(xtmri))∈Rd\\mathbf{e}^{\\mathrm{mri}}_t=\\mathrm{MLP}\\!\\left(\\mathrm{Conv3D}\\!\\left(\\mathbf{x}^{\\mathrm{mri}}_t\\right)\\right)\\in\\mathbb{R}^d。
- •临床分数 (xtclin∈R64\\mathbf{x}^{\\mathrm{clin}}_t\\in\\mathbb{R}^{64})、生物标志物 (xtbio\\mathbf{x}^{\\mathrm{bio}}_t) 和基因数据 (xtgen\\mathbf{x}^{\\mathrm{gen}}_t)：各由模态特定MLP处理：et(l)=MLPl(xt(l))∈Rd,l∈{clin,bio,gen}\\mathbf{e}^{(l)}_t=\\mathrm{MLP}_l\\!\\left(\\mathbf{x}^{(l)}_t\\right)\\in\\mathbb{R}^d,\\quad l\\in\\{\\mathrm{clin},\\,\\mathrm{bio},\\,\\mathrm{gen}\\}。
- •时间嵌入：就诊时间戳τt\\tau_t被编码为学习到的时间嵌入Etime∈Rd\\mathbf{E}_{\\mathrm{time}}\\in\\mathbb{R}^d，捕捉绝对时间和就诊间间隔Δt\\Delta_t。

在就诊tt处的每种模态嵌入被堆叠成Etraw=[et(1);et(2);...;et(L)]∈RL×d\\mathbf{E}^{\\mathrm{raw}}_t=\\bigl[\\mathbf{e}^{(1)}_t;\\;\\mathbf{e}^{(2)}_t;\\;\\ldots;\\;\\mathbf{e}^{(L)}_t\\bigr]\\in\\mathbb{R}^{L\\times d}，其中对应于未观测模态的行

LongMoE：基于轨迹感知的混合专家模型的纵向多模态学习

相似文章

Mix-MoE：通过混合专家混合提升大语言模型的多语言机器翻译

面向模态异质性下的鲁棒联邦多模态图学习

MemLens：大规模视觉-语言模型中多模态长期记忆的基准测试

MACS: 面向高效多模态MoE推理的模态感知容量缩放

XPERT：通过专家知识迁移实现语言模型的高效训练

提交意见反馈