我们在多模态域泛化领域是否取得了进展?一项全面的基准研究

Hugging Face Daily Papers 论文

摘要

本文提出了 MMDG-Bench,这是一个针对多模态域泛化的统一基准,揭示了当前方法进展有限,并且在不同任务中存在显著的鲁棒性挑战。

尽管多模态域泛化(MMDG)在增强模型鲁棒性方面日益流行,但目前尚不清楚报告的性能提升是反映了真正的算法进步,还是评估协议不一致造成的假象。当前的研究支离破碎,各项研究在数据集、模态配置和实验设置上存在显著差异。此外,现有的基准主要集中于动作识别,往往忽视了输入损坏、模态缺失和模型可信度等关键的实际挑战。这种缺乏标准化使得对该领域进展的可靠评估变得模糊不清。为了解决这一问题,我们引入了 MMDG-Bench,这是第一个针对 MMDG 的统一且全面的基准,它在涵盖三个不同任务(动作识别、机械故障诊断和情绪分析)的六个数据集上标准化了评估流程。MMDG-Bench 包括六种模态组合、九种代表性方法以及多种评估设置。除了标准的准确率之外,它还系统地评估了损坏鲁棒性、缺失模态泛化能力、误分类检测以及分布外检测能力。通过在 95 个独特的跨域任务中总共训练 7,402 个神经网络,MMDG-Bench 得出了五个关键发现:(1) 在公平比较下,最近专门的 MMDG 方法相比经验风险最小化(ERM)基线仅提供微小的改进;(2) 没有哪种方法能在所有数据集或模态组合中始终优于其他方法;(3) 与性能上限之间存在巨大差距,表明 MMDG 问题远未解决;(4) 三模态融合并不始终优于最强的双模态配置;(5) 所有评估的方法在损坏和缺失模态场景下均表现出显著的性能退化,某些方法甚至进一步损害了模型的可信度。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:02

论文页面 - 我们在多模态域泛化方面取得进步了吗?一项综合基准研究

来源:https://huggingface.co/papers/2605.06643

摘要

MMDG-Bench 提供了一个多模态域泛化的统一基准,旨在跨不同任务和模态标准化评估,同时揭示了性能提升有限以及存在显著的鲁棒性挑战。

尽管多模态域泛化(Multimodal Domain Generalization,MMDG)在增强模型鲁棒性方面日益流行,但尚不清楚报告的性能提升是反映了真正的算法进步,还是由不一致的评估协议造成的假象。当前的研究较为碎片化,不同研究在数据集、模态配置和实验设置方面差异显著。此外,现有的基准主要集中于动作识别(action recognition),往往忽略了输入损坏、模态缺失和模型可信度等关键现实世界挑战。这种缺乏标准化使得难以对该领域的进展进行可靠评估。为了解决这一问题,我们引入了 MMDG-Bench,这是首个针对 MMDG 的统一且全面的基准,它在涵盖三个不同任务的六个数据集上标准化了评估:动作识别(action recognition)、机械故障诊断(mechanical fault diagnosis)和情感分析(sentiment analysis)。MMDG-Bench 包含六种模态组合、九种代表性方法以及多种评估设置。除了标准准确率外,它还系统地评估了损坏鲁棒性(corruption robustness)、缺失模态泛化(missing-modality generalization)、误分类检测以及分布外检测(out-of-distribution detection)。通过在 95 个独特的跨域任务(cross-domain tasks)中总共训练 7,402 个神经网络(neural networks),MMDG-Bench 得出了五项关键发现:(1) 在公平比较下,近期专门的 MMDG 方法相比经验风险最小化(ERM)基线(ERM baseline)仅提供边际改进;(2) 没有哪种方法能在不同数据集或模态组合中 consistently 优于其他方法;(3) 与上限性能之间存在显著差距,表明 MMDG 远未解决;(4) 三模态融合并不始终优于最强的双模态配置;(5) 所有评估方法在损坏和缺失模态场景下均表现出显著退化,某些方法甚至进一步损害了模型的可信度。

查看 arXiv 页面 (https://arxiv.org/abs/2605.06643)查看 PDF (https://arxiv.org/pdf/2605.06643)GitHub9 (https://github.com/lihongzhao99/MMDG_Benchmark)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.06643)

在你的代理中获取此论文:

hf papers read 2605\.06643

还没有最新版本的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.06643 即可在此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加至收藏集 (https://huggingface.co/new-collection)即可在此页面建立链接。

相似文章

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL

MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。