GridVQA-X:评估多模态可解释性方法的框架

Hugging Face Daily Papers 论文

摘要

GridVQA-X 引入了一个诊断框架,通过区分多模态模型中真正的空间关系推理与跨模态捷径,来评估跨模态可解释性。

随着视觉-语言模型的不断发展,确保其预测结果对相关利益方易于解释变得至关重要。然而,可解释性领域并未跟上多模态热潮的步伐。尽管近年来多模态可解释人工智能(MxAI)方法能够生成解释,以归因不同模态之间的交互,但当前的评估协议缺乏必要的真实标注,无法区分真正的跨模态推理(例如空间组合)与浅层跨模态捷径(例如词袋属性匹配)。目前尚不清楚 MxAI 方法是忠实地捕捉协同交互,还是仅仅在充当简单特征检测器的模型上产生幻觉推理。在本文中,我们引入了 GridVQA-X,这是第一个专门设计用于评估跨模态可解释性的诊断框架。与自然数据集不同,GridVQA-X 利用封闭世界合成逻辑生成独特的、数学上可保证的解释。我们利用这一受控环境,在相同架构上训练配对的真实模型:M_{pure}(学习鲁棒的空间关系推理)和 M_{spur}(结构上被迫依赖跨模态捷径)。这种行为差异创建了一个严格的测试平台:一个忠实的解释器必须为每个模型报告不同的推理路径。我们的研究结果表明,广泛使用的方法无法区分依赖真正空间关系推理的模型与利用跨模态捷径的模型,凸显了在捕捉真正跨模态协同方面的关键差距,并错误呈现了多模态模型实际做出决策的方式。
查看原文
查看缓存全文

缓存时间: 2026/06/26 02:04

论文页面 - GridVQA-X: 评估多模态可解释性方法的框架

来源:https://huggingface.co/papers/2606.14740

摘要

GridVQA-X 引入了一个诊断框架,通过区分多模态模型中的真实空间关系推理与跨模态捷径,来评估跨模态可解释性。

随着视觉-语言模型的不断发展,其预测结果对相关利益方具备可解释性变得至关重要。然而,可解释性领域并未跟上多模态发展的步伐。尽管近期多模态可解释性AI (MxAI)方法会生成解释来归因不同模态之间的交互,但当前的评估协议缺乏所需的真实标签,无法区分真正的跨模态推理(例如空间组合)与浅层的跨模态捷径(例如词袋属性匹配)。我们尚不清楚 MxAI 方法是忠实捕捉了协同交互,还是仅仅在那些充当简单特征检测器的模型上虚构了推理过程。本文中,我们首次引入了 GridVQA-X——一个专门用于评估跨模态可解释性的诊断框架。与自然数据集不同,GridVQA-X 利用封闭世界的合成逻辑来生成唯一且数学上保证正确的解释。我们利用这个受控环境,在完全相同的架构上训练成对的真实标签模型:M_{pure} 学习稳健的空间关系推理,而 M_{spur} 在结构上被迫依赖跨模态捷径。这种行为差异创造了一个严格的测试平台:一个忠实的解释器必须为每个模型报告不同的推理路径。我们的发现表明,广泛使用的方法无法区分依赖真正空间关系推理的模型与利用跨模态捷径的模型,凸显了在捕捉真正跨模态协同方面的关键差距,并对多模态模型实际如何做出决策进行了错误描述。

查看 arXiv 页面 | 查看 PDF | GitHub1 | 添加到收藏

在你的代理中获取这篇论文:

hf papers read 2606.14740

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.14740 以从此页面链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.14740 以从此页面链接。

引用此论文的空间 0

没有空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2606.14740 以从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将这篇论文添加到一个收藏以从此页面链接。

相似文章

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。