我们在多模态域泛化领域是否取得了进展?一项全面的基准研究
摘要
本文提出了 MMDG-Bench,这是一个针对多模态域泛化的统一基准,揭示了当前方法进展有限,并且在不同任务中存在显著的鲁棒性挑战。
查看缓存全文
缓存时间: 2026/05/08 07:02
论文页面 - 我们在多模态域泛化方面取得进步了吗?一项综合基准研究
来源:https://huggingface.co/papers/2605.06643
摘要
MMDG-Bench 提供了一个多模态域泛化的统一基准,旨在跨不同任务和模态标准化评估,同时揭示了性能提升有限以及存在显著的鲁棒性挑战。
尽管多模态域泛化(Multimodal Domain Generalization,MMDG)在增强模型鲁棒性方面日益流行,但尚不清楚报告的性能提升是反映了真正的算法进步,还是由不一致的评估协议造成的假象。当前的研究较为碎片化,不同研究在数据集、模态配置和实验设置方面差异显著。此外,现有的基准主要集中于动作识别(action recognition),往往忽略了输入损坏、模态缺失和模型可信度等关键现实世界挑战。这种缺乏标准化使得难以对该领域的进展进行可靠评估。为了解决这一问题,我们引入了 MMDG-Bench,这是首个针对 MMDG 的统一且全面的基准,它在涵盖三个不同任务的六个数据集上标准化了评估:动作识别(action recognition)、机械故障诊断(mechanical fault diagnosis)和情感分析(sentiment analysis)。MMDG-Bench 包含六种模态组合、九种代表性方法以及多种评估设置。除了标准准确率外,它还系统地评估了损坏鲁棒性(corruption robustness)、缺失模态泛化(missing-modality generalization)、误分类检测以及分布外检测(out-of-distribution detection)。通过在 95 个独特的跨域任务(cross-domain tasks)中总共训练 7,402 个神经网络(neural networks),MMDG-Bench 得出了五项关键发现:(1) 在公平比较下,近期专门的 MMDG 方法相比经验风险最小化(ERM)基线(ERM baseline)仅提供边际改进;(2) 没有哪种方法能在不同数据集或模态组合中 consistently 优于其他方法;(3) 与上限性能之间存在显著差距,表明 MMDG 远未解决;(4) 三模态融合并不始终优于最强的双模态配置;(5) 所有评估方法在损坏和缺失模态场景下均表现出显著退化,某些方法甚至进一步损害了模型的可信度。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06643)查看 PDF (https://arxiv.org/pdf/2605.06643)GitHub9 (https://github.com/lihongzhao99/MMDG_Benchmark)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06643)
在你的代理中获取此论文:
hf papers read 2605\.06643
还没有最新版本的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加至收藏集 (https://huggingface.co/new-collection)即可在此页面建立链接。
相似文章
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。
MCBench: 面向全模态大语言模型的多语境安全评估基准
MCBench是一个新基准,用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景,并发现当前模型难以进行跨模态安全推理。
MulTaBench:基于文本与图像的多模态表格学习基准测试
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。
MuteBench:不完整多模态融合中的模态不可用容忍度评估
MuteBench是一个基准测试,用于评估多模态融合模型在临床数据集上的模态缺失和模态内部缺失条件下的性能。它提供了关于架构鲁棒性的见解,并表明基于扩散的插补方法可以有所帮助。
P3D-Bench:参数化3D生成与结构推理的多模态大语言模型基准测试
本文提出P3D-Bench,一个用于评估多模态大语言模型在参数化3D生成任务上的基准测试,涵盖文本到3D、图像到3D和组装到3D,并采用几何精度、语义对齐和部件级结构等指标。