我们在多模态域泛化领域是否取得了进展？一项全面的基准研究

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

本文提出了 MMDG-Bench，这是一个针对多模态域泛化的统一基准，揭示了当前方法进展有限，并且在不同任务中存在显著的鲁棒性挑战。

尽管多模态域泛化（MMDG）在增强模型鲁棒性方面日益流行，但目前尚不清楚报告的性能提升是反映了真正的算法进步，还是评估协议不一致造成的假象。当前的研究支离破碎，各项研究在数据集、模态配置和实验设置上存在显著差异。此外，现有的基准主要集中于动作识别，往往忽视了输入损坏、模态缺失和模型可信度等关键的实际挑战。这种缺乏标准化使得对该领域进展的可靠评估变得模糊不清。为了解决这一问题，我们引入了 MMDG-Bench，这是第一个针对 MMDG 的统一且全面的基准，它在涵盖三个不同任务（动作识别、机械故障诊断和情绪分析）的六个数据集上标准化了评估流程。MMDG-Bench 包括六种模态组合、九种代表性方法以及多种评估设置。除了标准的准确率之外，它还系统地评估了损坏鲁棒性、缺失模态泛化能力、误分类检测以及分布外检测能力。通过在 95 个独特的跨域任务中总共训练 7,402 个神经网络，MMDG-Bench 得出了五个关键发现：(1) 在公平比较下，最近专门的 MMDG 方法相比经验风险最小化（ERM）基线仅提供微小的改进；(2) 没有哪种方法能在所有数据集或模态组合中始终优于其他方法；(3) 与性能上限之间存在巨大差距，表明 MMDG 问题远未解决；(4) 三模态融合并不始终优于最强的双模态配置；(5) 所有评估的方法在损坏和缺失模态场景下均表现出显著的性能退化，某些方法甚至进一步损害了模型的可信度。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 07:02

论文页面 - 我们在多模态域泛化方面取得进步了吗？一项综合基准研究

来源：https://huggingface.co/papers/2605.06643

摘要

MMDG-Bench 提供了一个多模态域泛化的统一基准，旨在跨不同任务和模态标准化评估，同时揭示了性能提升有限以及存在显著的鲁棒性挑战。

尽管多模态域泛化（Multimodal Domain Generalization，MMDG）在增强模型鲁棒性方面日益流行，但尚不清楚报告的性能提升是反映了真正的算法进步，还是由不一致的评估协议造成的假象。当前的研究较为碎片化，不同研究在数据集、模态配置和实验设置方面差异显著。此外，现有的基准主要集中于动作识别（action recognition），往往忽略了输入损坏、模态缺失和模型可信度等关键现实世界挑战。这种缺乏标准化使得难以对该领域的进展进行可靠评估。为了解决这一问题，我们引入了 MMDG-Bench，这是首个针对 MMDG 的统一且全面的基准，它在涵盖三个不同任务的六个数据集上标准化了评估：动作识别（action recognition）、机械故障诊断（mechanical fault diagnosis）和情感分析（sentiment analysis）。MMDG-Bench 包含六种模态组合、九种代表性方法以及多种评估设置。除了标准准确率外，它还系统地评估了损坏鲁棒性（corruption robustness）、缺失模态泛化（missing-modality generalization）、误分类检测以及分布外检测（out-of-distribution detection）。通过在 95 个独特的跨域任务（cross-domain tasks）中总共训练 7,402 个神经网络（neural networks），MMDG-Bench 得出了五项关键发现：(1) 在公平比较下，近期专门的 MMDG 方法相比经验风险最小化（ERM）基线（ERM baseline）仅提供边际改进；(2) 没有哪种方法能在不同数据集或模态组合中 consistently 优于其他方法；(3) 与上限性能之间存在显著差距，表明 MMDG 远未解决；(4) 三模态融合并不始终优于最强的双模态配置；(5) 所有评估方法在损坏和缺失模态场景下均表现出显著退化，某些方法甚至进一步损害了模型的可信度。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06643)查看 PDF (https://arxiv.org/pdf/2605.06643)GitHub9 (https://github.com/lihongzhao99/MMDG_Benchmark)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06643)

在你的代理中获取此论文：

hf papers read 2605\.06643

还没有最新版本的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加至收藏集 (https://huggingface.co/new-collection)即可在此页面建立链接。

我们在多模态域泛化领域是否取得了进展？一项全面的基准研究

论文页面 - 我们在多模态域泛化方面取得进步了吗？一项综合基准研究

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

KMMMU：韩语及韩国文化背景下的大规模多学科多模态理解评估

Mind's Eye：面向多模态大模型的视觉抽象、变换与组合基准

提交意见反馈