CL-DMDF:基于对比学习的动态多模态数据融合模型
摘要
本文提出了CL-DMDF,一种基于对比学习和双维度注意力机制的动态多模态数据融合模型,用于处理缺失模态并提升判别学习能力。
arXiv:2606.02659v1 公告类型:新
摘要:多模态数据融合涉及整合和分析来自多种模态的信息,以揭示潜在的相关性和互补模式,从而增强数据处理和决策能力。虽然现有的结构化多模态输入方法通常是针对特定任务设计的,并假设模态完全可观测,但实际应用中常因各种因素导致模态输入不确定或缺失。一些传统模型过度关注缺失模态内的局部交互,忽视了多模态表示中蕴含的全局互补线索。为克服这些局限,我们提出了一种基于对比学习的动态多模态数据融合模型(CL-DMDF)。CL-DMDF引入了一种新颖的注意力机制,同时在特征和模态维度上计算可靠的注意力分数,有效反映各层级的重要性。CL-DMDF进一步包含一个实体质心对比学习模块,该模块从实体特征构建基于质心的正样本,以增强判别学习。此外,采用自适应融合模块来提高动态融合策略的效率和准确性。在三个数据集上进行的大量实验验证了CL-DMDF在多种多模态融合任务中的有效性。
查看缓存全文
缓存时间: 2026/06/03 09:39
# 基于对比学习的动态多模态数据融合模型
来源:https://arxiv.org/html/2606.02659
###### 摘要
多模态数据融合涉及整合和分析来自多种模态的信息,以揭示潜在的相关性和互补模式,从而增强数据处理和决策能力。现有面向结构化多模态输入的方法通常围绕特定任务设计,并假定模态完全可观测,但现实应用中常因各种因素导致模态输入不确定或缺失。一些传统模型过度关注缺失模态内的局部交互,忽略了多模态表示中蕴含的全局互补线索。为克服这些局限,我们提出了一种基于对比学习的动态多模态数据融合模型(CL-DMDF)。CL-DMDF引入了一种新颖的注意力机制,该机制同时在特征维度和模态维度上运行,以计算可靠的注意力分数,有效反映各层级的重要性。CL-DMDF进一步包含一个实体质心对比学习模块,该模块从实体特征构建基于质心的正样本,以增强判别学习。此外,采用自适应融合模块来提高动态融合策略的效率和准确性。在三个数据集上进行的广泛实验证明了CL-DMDF在多种多模态融合任务中的有效性。
代码——https://github.com/zoo-111-p/CL-DMDF
## 引言
在现实世界中,人类通过眼睛、耳朵、皮肤、鼻子和舌头等感觉受体感知环境,从而看到物体、听到声音、感受质地、闻到气味和品尝味道。从每个感觉来源或媒介获得的信息可视为一种模态。多模态是指使用两种或多种异质模态(如文本、视觉或音频)进行联合学习和推理。
人脑无意识地整合来自不同感觉受体的信息,即融合模态,提取互补信息以形成预测或决策。此外,机器高度依赖RGB摄像头、麦克风和其他类型传感器。每个传感器将观察到的对象或活动映射到机器领域,使其能够基于收集的数据做出预测或决策。
虽然现有的多模态决策方法通常依赖手动特征工程,但它们往往无法捕捉跨模态互补性,导致早期信息丢失。尽管CNN、LSTM、Transformer和BERT等模型可以处理多模态输入,但关键挑战仍然是如何进行深度融合以增强机器智能。
参考图注图1:仅凭文本信息很难在分类过程中准确预测当前情绪。然而,音频和视觉模态可以为多模态网络提供关键线索。(Xue和Marculescu, 2023 (https://arxiv.org/html/2606.02659#bib.bib35))多模态数据融合旨在整合来自多种模态(如视觉、音频和文本)的信息,以提高分析准确性。例如,在情感识别(图1)中,整合音频和视觉信号通过利用跨模态互补性改善了分类性能。
针对动态多模态数据,我们提出了一种基于对比学习的动态多模态数据融合模型(CL-DMDF)。该模型提取模态特定特征并将其投影到共享嵌入空间中。特征维度和模态维度上的双维注意力机制分配权重以应对结构可变性。对比学习增强了特征判别能力,而自适应融合模块动态选择任务相关策略以生成统一表示。
多模态融合通过缓解单模态输入的局限性(常受光照、噪声和传感器故障等因素影响)显著增强了系统感知能力。通过整合互补线索,它在复杂环境中提高了准确性和鲁棒性。例如,在自动驾驶中,结合摄像头图像、雷达数据和语音命令增强了安全性和交互可靠性。
在本文中,我们提出了一种新颖的基于对比学习的动态多模态数据融合模型(CL-DMDF),以解决现有融合模型在任务适应性和语义表达性方面的局限性。我们的主要贡献总结如下:
(1) 我们提出了一种双维注意力机制,联合建模特征级和模态级重要性,从而能够计算更可靠的注意力分数以指导有效的多模态整合。
(2) 我们引入了一个实体质心对比学习模块,该模块基于注意力加权模态特征构建正负样本对。该模块增强了表示的判别能力并扩展了嵌入空间。
(3) 我们提出了一种自适应融合模块,该模块根据输入特征的特征动态选择最优融合策略。这使得模型能够在不同任务中平衡准确性和计算效率。
(4) CL-DMDF的创新在于其三个组件的协同设计,在统一架构内优化单一目标,是框架层面的创新。我们在三个代表性数据集上进行了全面实验。结果表明,CL-DMDF在多种任务上始终优于强基线,验证了模型的有效性和泛化能力。
## 相关工作
动态条件下的多模态数据融合与传统融合范式一致。本节回顾该领域的代表性研究。
### 多模态数据融合
多模态融合传统上分为数据级、特征级和决策级方法。早期数据级模型(Camille, Clément, and Laurent, 2013 (https://arxiv.org/html/2606.02659#bib.bib5))在输入层拼接RGB和深度图像,而SSR-CNN(Liu et al., 2019 (https://arxiv.org/html/2606.02659#bib.bib21))采用单流架构整合模态。特征级方法(Li et al., 2018 (https://arxiv.org/html/2606.02659#bib.bib17); Hu et al., 2020a (https://arxiv.org/html/2606.02659#bib.bib12))独立编码模态并在解码阶段融合;FFN(Janani et al., 2021 (https://arxiv.org/html/2606.02659#bib.bib14))通过拼接模态特定编码器的输出改进了这一点。
对于决策级融合,(Nihar, Kevin, and Peyman, 2021 (https://arxiv.org/html/2606.02659#bib.bib25))引入了多模态变分自编码器(VAE),从图像特征学习共享潜在空间。类似地,一种端到端VAE框架(Dhruv et al., 2019 (https://arxiv.org/html/2606.02659#bib.bib8))通过编码和重建联合文本和视觉嵌入解决了假新闻检测问题。
最近的研究扩展了这些范式。(Chen, Wang, and Zhang, 2024 (https://arxiv.org/html/2606.02659#bib.bib6))提出了一种渐进式跨模态注意力机制,用于在不同抽象层次上进行自适应融合。(Liu, Fan, and Li, 2025 (https://arxiv.org/html/2606.02659#bib.bib20))引入了潜在变量建模以捕捉模态特定不确定性。(Zhang, Hu, and Tan, 2025 (https://arxiv.org/html/2606.02659#bib.bib39))进一步探索了实时约束下的轻量级基于Transformer的融合,改善了效率与性能之间的权衡。
### 动态多模态数据融合
基于动态注意力的融合方法通常分为模态内自注意力、跨模态交叉注意力和基于Transformer的方法。(Gao et al., 2019 (https://arxiv.org/html/2606.02659#bib.bib10))应用硬注意力生成空间二值掩码以实现选择性特征传播。(Mateusz et al., 2018 (https://arxiv.org/html/2606.02659#bib.bib22))引入了双向跨模态注意力用于视觉-语言对齐,而(Hu et al., 2020b (https://arxiv.org/html/2606.02659#bib.bib13))提出了点积交叉注意力以捕捉音频-文本相关性。MVAE整合了多种模态用于假新闻检测等任务。
基于Transformer的融合方法利用跨模态注意力建模长距离依赖。(Sun et al., 2021 (https://arxiv.org/html/2606.02659#bib.bib28))设计了用于MRI-声学信号对齐的跨模态Transformer,而(Xu, Feng, and Huang, 2022 (https://arxiv.org/html/2606.02659#bib.bib34))采用自注意力捕捉模态间关系。(Yang, Tan, and Gao, 2024 (https://arxiv.org/html/2606.02659#bib.bib37))提出了一种具有层次化融合的多头稀疏Transformer,在噪声视频-文本数据集上表现出鲁棒性。(Liu, Zhao, and Zhang, 2025 (https://arxiv.org/html/2606.02659#bib.bib19))引入了一种自适应稀疏注意力框架,基于语义不确定性剪枝模态贡献。最近,UniFM(Jiang, Zhang, and Tan, 2024 (https://arxiv.org/html/2606.02659#bib.bib15))和MM-TokenMixer(Li, Xu, and Liu, 2025 (https://arxiv.org/html/2606.02659#bib.bib18))通过共享表示和令牌级混合优化了跨模态令牌整合,从而改进了基准之间的泛化能力。动态多模态融合也得到了研究,以提高多模态推理的效率(Xue and Marculescu, 2023 (https://arxiv.org/html/2606.02659#bib.bib35)),这激励了在复杂多模态设置下进一步探索灵活融合策略。
基于图的方法从标准GCN演变为时空图架构。(Chih et al., 2022 (https://arxiv.org/html/2606.02659#bib.bib7))利用深度GCN进行情感识别,而(Hu et al., 2021 (https://arxiv.org/html/2606.02659#bib.bib11))将多模态GAT与时间卷积相结合以建模时空模式。(Ding, Sun, and Zhao, 2023 (https://arxiv.org/html/2606.02659#bib.bib9))将多头注意力集成到GNN中用于场景图嵌入,随后在(Yang et al., 2023 (https://arxiv.org/html/2606.02659#bib.bib38))中进行跨模态对齐。(Li et al., 2023 (https://arxiv.org/html/2606.02659#bib.bib16))从元数据构建电影知识图谱,并通过自监督注意力和对比学习将其嵌入用于多模态体裁分类,表明结构化关系知识补充了多模态表示学习。(Wang, Lin, and Song, 2025 (https://arxiv.org/html/2606.02659#bib.bib32))提出了一种具有模态感知策略学习的强化引导GNN,用于动态社会事件检测。此外,GNN-Adapter(Wu, Sun, and Huang, 2024 (https://arxiv.org/html/2606.02659#bib.bib33))将轻量级图模块引入预训练多模态模型,无需重新训练骨干网络即可提高效率。
### 与现有工作的差异
参考图注图2:CL-DMDF概述。首先使用特征提取网络从不同模态的数据中提取特征,并将其投影到统一维度空间。然后采用双维注意力机制引导注意力分配。接着应用对比学习增强特征的判别能力。最后,自适应融合模块根据任务的特定需求选择最合适的融合策略。我们的工作在几个关键方面与传统方法不同。
大多数现有融合模型在不同任务中采用静态策略,限制了适应性。相比之下,CL-DMDF采用动态融合机制,基于模态可靠性选择任务相关策略。现有的基于注意力的方法由于无监督设计往往产生不稳定权重,而基于图的模型难以泛化到未见过的模态。CL-DMDF通过双维注意力机制解决了这一问题,该机制联合考虑了特征级和模态级重要性。与先前采用粗粒度对齐的对比学习方法不同,我们的实体中心对比模块捕捉细粒度语义,增强了表示质量。最后,为了平衡性能和效率,我们引入了一个资源感知目标,指导自适应融合模块在不同任务复杂度下避免冗余计算。
## 方法
我们首先介绍所提出的用于动态多模态融合的CL-DMDF模型,随后给出问题的正式定义及其实现细节。
### 模型概述
本文提出了一种基于对比学习的动态多模态数据融合模型,称为CL-DMDF。该模型首先使用专用特征提取网络从不同模态中提取特征,并将其投影到统一向量空间。为了应对模态组合的多样性和每个实体特征数量的变化,引入双维注意力机制以指导跨模态和特征的注意力分配。该机制增强了模型聚焦于任务相关信息的能力。为了增强特征判别能力,CL-DMDF集成了一种对比学习模块,通过区分相似与不相似样本来锐化表示边界。自适应融合模块进一步根据任务需求和模态特征选择最优策略,实现异质特征的有效聚合。整体架构如图2所示。
### 双维注意力机制
不同的模态可能代表具有不同语义特征的实体,由于模态特定编码差异,导致一致且信息丰富的融合变得复杂。为了解决这个问题,我们提出了一种双维注意力机制,在分配每个实体的注意力权重时,同时考虑特征级丰富性和模态级存在性。
具有更广泛特征覆盖且在更多模态中存在的实体被分配更高的权重,从而增强其对最终融合表示的贡献。该方法优先考虑语义重要的实体,实现更有效的跨模态整合。加权特征用于对比学习,一个由共享线性层和非线性激活函数组成的注意力模块进一步平衡样本间的模态贡献。
对于多模态特征,\(F_i^1 \in \mathbb{R}^{D_1}, F_i^2 \in \mathbb{R}^{D_2}, \dots, F_i^n \in \mathbb{R}^{D_n}\),其中 \(\{D_i\}\) 表示从不同模态提取的特征,我们使用批归一化和线性投影函数将其转换为相同形状,如公式1所示:
\[
h(x) = \mathrm{project}\big(\mathrm{batchnorm}(x)\big) \tag{1}
\]
其中 \(\mathrm{project}(\cdot)\) 和 \(\mathrm{batchnorm}(\cdot)\) 分别表示线性投影函数和批归一化函数。对齐后,所有模态特征输入模块以获得其注意力分数 \(a_i\),指导对比学习生成质心并扩展特征嵌入空间。
为了提高注意力可靠性,我们引入一种自监督双维机制,根据伪标签 \(\tilde{Y}_n\) 分配注意力分数,反映特征数量和模态覆盖范围。特征或模态有限的实体获得较低的权重。相似文章
LoMo: 局部模态替换以实现更深层的视觉-语言融合
LoMo 提出了一种数据整理方法,将单模态提示重新表述为交错的多模态序列,以改善视觉-语言模型中的跨模态表示对齐,在多个基准测试上取得了持续的性能提升。
融合之前,先问保留什么:多模态信号的上下文校准
本文介绍了一种即插即用的校准模块,该模块在融合前调整多模态表示,利用跨模态上下文抑制误导信号,增强可靠信号,从而在多个基准测试上提升性能。
MMCORE:多模态连接与表征对齐的潜在嵌入
MMCORE 提出一个统一的多模态图像生成与编辑框架,将 VLM 语义嵌入与扩散条件对齐,无需昂贵融合或从零训练即可实现顶尖保真度。
利用自定进度课程学习增强多模态对话情感识别中的模态平衡
本文提出了一种基于自定进度课程学习的即插即用模块,用于增强多模态对话情感识别中的模态平衡,在IEMOCAP和MELD数据集上实现了F1分数的一致提升。
基于对比 LLM 微调对齐对话附和信号与语境表征
KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。