我们在多模态域泛化领域是否取得了进展?一项全面的基准研究
摘要
本文提出了 MMDG-Bench,这是一个针对多模态域泛化的统一基准,揭示了当前方法进展有限,并且在不同任务中存在显著的鲁棒性挑战。
查看缓存全文
缓存时间: 2026/05/08 07:02
论文页面 - 我们在多模态域泛化方面取得进步了吗?一项综合基准研究
来源:https://huggingface.co/papers/2605.06643
摘要
MMDG-Bench 提供了一个多模态域泛化的统一基准,旨在跨不同任务和模态标准化评估,同时揭示了性能提升有限以及存在显著的鲁棒性挑战。
尽管多模态域泛化(Multimodal Domain Generalization,MMDG)在增强模型鲁棒性方面日益流行,但尚不清楚报告的性能提升是反映了真正的算法进步,还是由不一致的评估协议造成的假象。当前的研究较为碎片化,不同研究在数据集、模态配置和实验设置方面差异显著。此外,现有的基准主要集中于动作识别(action recognition),往往忽略了输入损坏、模态缺失和模型可信度等关键现实世界挑战。这种缺乏标准化使得难以对该领域的进展进行可靠评估。为了解决这一问题,我们引入了 MMDG-Bench,这是首个针对 MMDG 的统一且全面的基准,它在涵盖三个不同任务的六个数据集上标准化了评估:动作识别(action recognition)、机械故障诊断(mechanical fault diagnosis)和情感分析(sentiment analysis)。MMDG-Bench 包含六种模态组合、九种代表性方法以及多种评估设置。除了标准准确率外,它还系统地评估了损坏鲁棒性(corruption robustness)、缺失模态泛化(missing-modality generalization)、误分类检测以及分布外检测(out-of-distribution detection)。通过在 95 个独特的跨域任务(cross-domain tasks)中总共训练 7,402 个神经网络(neural networks),MMDG-Bench 得出了五项关键发现:(1) 在公平比较下,近期专门的 MMDG 方法相比经验风险最小化(ERM)基线(ERM baseline)仅提供边际改进;(2) 没有哪种方法能在不同数据集或模态组合中 consistently 优于其他方法;(3) 与上限性能之间存在显著差距,表明 MMDG 远未解决;(4) 三模态融合并不始终优于最强的双模态配置;(5) 所有评估方法在损坏和缺失模态场景下均表现出显著退化,某些方法甚至进一步损害了模型的可信度。
查看 arXiv 页面 (https://arxiv.org/abs/2605.06643)查看 PDF (https://arxiv.org/pdf/2605.06643)GitHub9 (https://github.com/lihongzhao99/MMDG_Benchmark)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06643)
在你的代理中获取此论文:
hf papers read 2605\.06643
还没有最新版本的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加至收藏集 (https://huggingface.co/new-collection)即可在此页面建立链接。
相似文章
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试
MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
KMMMU:韩语及韩国文化背景下的大规模多学科多模态理解评估
KMMMU 是一个用于评估韩语多模态理解的本地化韩文基准,包含 3,466 道题目,涵盖九个学科和视觉模态类别,通过测试韩国特定文化和制度背景下的性能,填补了以英文为中心的基准的空白。
Mind's Eye:面向多模态大模型的视觉抽象、变换与组合基准
研究者推出 Mind’s Eye,一项包含八道视觉认知任务的基准测试,显示顶级多模态大模型得分不足 50%,而人类可达 80%,暴露出视觉抽象、关系映射与心理变换方面的巨大差距。