GridVQA-X:评估多模态可解释性方法的框架
摘要
GridVQA-X 引入了一个诊断框架,通过区分多模态模型中真正的空间关系推理与跨模态捷径,来评估跨模态可解释性。
查看缓存全文
缓存时间: 2026/06/26 02:04
论文页面 - GridVQA-X: 评估多模态可解释性方法的框架
来源:https://huggingface.co/papers/2606.14740
摘要
GridVQA-X 引入了一个诊断框架,通过区分多模态模型中的真实空间关系推理与跨模态捷径,来评估跨模态可解释性。
随着视觉-语言模型的不断发展,其预测结果对相关利益方具备可解释性变得至关重要。然而,可解释性领域并未跟上多模态发展的步伐。尽管近期多模态可解释性AI (MxAI)方法会生成解释来归因不同模态之间的交互,但当前的评估协议缺乏所需的真实标签,无法区分真正的跨模态推理(例如空间组合)与浅层的跨模态捷径(例如词袋属性匹配)。我们尚不清楚 MxAI 方法是忠实捕捉了协同交互,还是仅仅在那些充当简单特征检测器的模型上虚构了推理过程。本文中,我们首次引入了 GridVQA-X——一个专门用于评估跨模态可解释性的诊断框架。与自然数据集不同,GridVQA-X 利用封闭世界的合成逻辑来生成唯一且数学上保证正确的解释。我们利用这个受控环境,在完全相同的架构上训练成对的真实标签模型:M_{pure} 学习稳健的空间关系推理,而 M_{spur} 在结构上被迫依赖跨模态捷径。这种行为差异创造了一个严格的测试平台:一个忠实的解释器必须为每个模型报告不同的推理路径。我们的发现表明,广泛使用的方法无法区分依赖真正空间关系推理的模型与利用跨模态捷径的模型,凸显了在捕捉真正跨模态协同方面的关键差距,并对多模态模型实际如何做出决策进行了错误描述。
查看 arXiv 页面 | 查看 PDF | GitHub1 | 添加到收藏
在你的代理中获取这篇论文:
hf papers read 2606.14740
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.14740 以从此页面链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.14740 以从此页面链接。
引用此论文的空间 0
没有空间链接此论文
在空间 README.md 中引用 arxiv.org/abs/2606.14740 以从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
将这篇论文添加到一个收藏以从此页面链接。
相似文章
从场景到元素:可验证多模态RAG的多粒度证据检索
本文介绍了GranuVistaVQA,一个带有元素级注释的多模态基准,以及GranuRAG,一个将视觉元素视为可验证多模态RAG的一等检索单元的框架,相较于基线实现了高达29.2%的提升。
VLMs 是否像工程师一样推理?一个基准与分阶段评估
本文介绍了 EngVQA,一个用于评估视觉语言模型工程推理能力的多模态基准,以及一个 8 阶段自动评估框架,能够对推理失败进行细粒度分析。它揭示了当前 VLMs 在工程推理能力上的重大局限性。
iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型
介绍 iVGR,一种强化学习框架,将视觉定位内化到多模态语言模型的文本推理中,在提升细粒度感知性能的同时,消除了推理过程中显式视觉基础的需求。
推理,然后重新推理:跨视角回顾提升空间推理
一种无需训练的空间推理框架,它利用由预测3D几何生成的合成新视角视频,实现对自我中心视频中结论的重新审视。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。