视觉语言模型是在“看”还是在“猜”？通过措辞控制的基准测试衡量并减少对文本先验的依赖

arXiv cs.CL 2026/06/10 04:00 论文

vision-language-models benchmark textual-prior-reliance evaluation multimodal grounding

摘要

本文介绍了一个措辞控制的基准测试，用于衡量视觉语言模型在多大程度上依赖文本先验而非图像内容。在十一个模型上的实验表明，当文本泄漏最小时，性能显著下降，作者证明上下文学习和GRPO后训练可以减少这种依赖。

arXiv:2606.10400v1 公告类型：新摘要：视觉语言模型（VLM）越来越多地部署在必须根据图像内容给出答案的场景中，然而它们常常根据文本先验——问题的措辞以及记忆的世界知识——来回答，而不是根据图像本身，这虚高了基准分数并产生自信但无根据的答案。现有的基准很少能隔离这种行为，因为每张图像通常只配有一个固定的问题。为了衡量这种依赖，我们构建了一个包含540张图像的基准，涵盖六个推理类别，并为相同图像生成四个问题变体，使得措辞而非图像内容成为受控变量。最难的变体直接从图像中编写，以最小化文本泄漏。我们对十一个VLM进行了基准测试，涵盖从小型开放权重模型到大型闭源系统：每个模型在最难的变体上性能下降，开放模型下降最多。我们的核心诊断是无图像消融实验，它将开放权重模型降至纯文本基线（1%到9%）。另外三项分析——LLM评定的难度、低基础到最终文本相似度以及人工重新标注——证实了模型对图像的真正依赖。与变体构建方式相匹配的上下文示例可以恢复最多的准确性，而对小型VLM进行GRPO后训练在所有四个变体上取得一致的改进，并迁移到保留的分布外数据集。文本先验依赖是可测量的，并且部分可以通过训练消除。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:10

# 视觉语言模型是在“看”还是在“猜”？通过措辞控制的基准衡量并减少文本先验依赖  
**来源**：https://arxiv.org/html/2606.10400  

Pratham Singla<sup>1,2</sup> Shivank Garg<sup>1,2</sup> Vihan Singh<sup>3</sup> Paras Chopra<sup>1</sup>  
<sup>1</sup>Lossfunk <sup>2</sup>Indian Institute of Technology Roorkee <sup>3</sup>Raeth AI  
pratham\_s@me\.iitr\.ac\.in, shivank\_g@mfs\.iitr\.ac\.in, vihan@raeth\.ai, paras@lossfunk\.com  

###### 摘要  
视觉语言模型（VLMs）越来越多地被部署在答案必须严格遵循图像内容的场景中。然而，这些模型常常依据文本先验——即问题的措辞及记忆中的世界知识——而非图像本身来作答。这导致基准测试分数虚高，并产生自信但缺乏依据的答案。现有的基准测试很少能独立衡量这种行为，因为每张图像通常只对应一个固定的问题。为了衡量这种依赖，我们构建了一个包含540张图像、覆盖六类推理任务的基准，并为同一图像生成了四种不同措辞的问题变体，使得措辞而非图像内容成为受控变量。其中最难的一种变体是直接从图像出发撰写的，以最大程度减少文本泄露。我们对11个VLM进行了基准测试，涵盖了从开源小模型到大型闭源系统：每个模型在最难变体上的表现均有下降，而开源模型下降幅度最大。我们的核心诊断方法是无图像消融实验，该实验将开源模型的准确率直接拉低至纯文本基线水平（1%至9%）。另外三项分析——LLM评分难度、低基线到最终文本相似度以及人工重新标注——均证实了这些问题的确需要依赖图像。与变体构建方式相匹配的上下文示例能最大程度地恢复准确率，而对一个小型VLM进行GRPO后训练则能在所有四种变体上带来一致的性能提升，并迁移至保留的分布外测试集。文本先验依赖既是可衡量的，也是可部分训练消除的。我们将在论文被接收后发布数据集和代码。  

![[未加标题图像]](https://arxiv.org/html/2606.10400v1/figures/lossfunk_logo.png)  
视觉语言模型是在“看”还是在“猜”？通过措辞控制的基准衡量并减少文本先验依赖  

参见图注  
**图1**：流程概览。从覆盖六类推理任务的540张图像中，Gemini-2.5-Pro为*同一张*图像生成四种问题变体（每种颜色一种），仅在生成条件信号上有所不同：基础问答（问题引导）、单轮感知子问题（子问题引导）、对话引导的子问题（多信号引导），或仅凭图像（视觉锚定）。示例展示了同一张图像通过四种流程。我们利用由此产生的四部分基准来：(i) 评估11个VLM在有图和没图情况下的表现（LLM评判器：Qwen3-14B），以及 (ii) 使用每变体对应的LoRA适配器对Qwen3.5-4B进行GRPO后训练，并在分布内和分布外测试集上进行评估。  

## 1 引言  
视觉语言模型（VLM）如今已广泛应用于从文档理解到视觉问答的多种多模态应用，其在标准基准测试中的报告准确率表明它们能够胜任图像理解任务。然而，越来越多的研究揭示了更为复杂的情况。VLM在那些人类可以轻松解决的简单感知任务上表现不佳（Rahmanzadehgervi et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib4)；Tong et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib7)），会幻觉出图像中不存在的物体和关系（Guan et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib6)），并且在完全去除图像时也常常能给出相同的答案（Luo et al., 2025 (https://arxiv.org/html/2606.10400#bib.bib5)）。这些行为指向一个共同原因：模型依赖于*文本先验*——即问题的表面措辞以及预训练期间习得的知识——而不是将其答案植根于像素中。在实际部署中，这是一种无声的失败模式，因为一个缺乏依据的答案看起来和正确答案一模一样，直到真正需要图像内容时才会暴露。这一现象呼应了视觉问答领域的长期发现：语言先验以及训练与测试问题之间的分布偏移使得模型可以在不“看”的情况下正确猜测（Goyal et al., 2017 (https://arxiv.org/html/2606.10400#bib.bib2)；Agrawal et al., 2018 (https://arxiv.org/html/2606.10400#bib.bib3)）。困难在于，标准准确率无法区分模型正确作答的两种方式。高分将“模型看到了图像”与“模型仅从问题文本就已知道答案”混为一谈，因为大多数基准测试问题仅凭措辞和世界知识即可回答，或几乎可以回答。更难的基准测试提高了推理难度的上限（Lu et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib8)；Yue et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib12)），但并非为隔离图像依赖性而设计：一个问题可能既困难又能够通过文本回答，因此低分同样可能归因于推理能力弱或感知能力弱。我们缺乏一种受控的方法，在保持底层图像不变的情况下，改变问题所泄露的信息量，从而使得准确率的任何变化都可归因于问题本身而非视觉内容。我们通过一个包含540张、覆盖六类推理任务的图像基准来填补这一空白，并为每张图像生成了四种问题变体（图1 (https://arxiv.org/html/2606.10400#S0.F1)）。由于所有变体共享相同的图像，措辞便成为了受控的杠杆：一个较简单的变体对源问题进行改写，而最难的变体——*视觉锚定*——则是直接从图像出发编写的，因此最大程度地减少了让模型无需看图即可回答的文本泄露。我们通过无图像消融实验来诊断依赖程度，即仅对每个开放模型在问题上进行重新测试，然后探究是否可以通过GRPO后训练来减少这种依赖，而非将其视为模型的固定属性。在11个VLM中，每个模型在基于图像生成的视觉锚定变体上表现均有下降，开源模型下降最严重（10–16% vs. 专有系统的27–38%）。在去掉图像后，开源模型的准确率直接崩至纯文本基线水平，而GRPO后训练则在分布内和分布外均减少了这种依赖。我们做出以下贡献：  

- • **一个措辞受控、图像固定的基准**。540张图像覆盖六类推理任务，每张图像*在同一图像上*配对四种问题变体，因此受控变量是问题措辞而非视觉内容。  
- • **一个涵盖11个模型的广泛评估**。我们量化了开源与专有模型之间的准确率差距，并表明最难、基于图像生成的变体对于每个模型而言都是最难的一列。  
- • **一个附有多角度验证的无图像诊断方法**。去掉图像是我们检验依赖性的核心测试；LLM评分难度、基线到最终文本相似度以及人工重新标注均证实这些问题确实需要视觉能力。  
- • **恢复和减少性能缺陷**。与变体构建方式相匹配的上下文示例最大程度地恢复了准确率，表明性能缺陷源于缺少视觉锚定而非问题自身不当；随后对一个小型VLM进行GRPO后训练，在所有四种变体上均减少了文本先验依赖，并且这些收益能够迁移到一个来源纯净的分布外测试集。  

## 2 相关工作  
### 语言先验与盲基线。  
VQA模型利用文本捷径而非图像内容的倾向很早就被发现：Goyal等人（2017 (https://arxiv.org/html/2606.10400#bib.bib2)）表明，在VQA v1上训练的模型即使仅凭问题文本也能正确作答，这促使了平衡划分以惩罚是/否猜测；Agrawal等人（2018 (https://arxiv.org/html/2606.10400#bib.bib3)）进一步证明，问答相关性的分布偏移暴露出对语言先验的严重过度依赖。近期的研究揭示了现代VLM中存在同样的弊病。Rahmanzadehgervi等人（2024 (https://arxiv.org/html/2606.10400#bib.bib4)）记录了大型视觉语言模型在视力正常者都能轻松完成的简单任务上失败的情况；同时，Tong等人（2024 (https://arxiv.org/html/2606.10400#bib.bib7)）表明基于CLIP的模型存在系统性的盲点，这些盲点会传播到基于它们构建的VLM中。Guan等人（2024 (https://arxiv.org/html/2606.10400#bib.bib6)）证明VLM经常幻觉出与所提供的图像不一致的答案，而Luo等人（2025 (https://arxiv.org/html/2606.10400#bib.bib5)）构建了一个文本先验探测器，其项目特意设计为仅凭文本即可作答，以衡量对视觉的规避程度。无图像（仅文本）基线统一了这些发现：去除图像能精确地衡量一个模型依赖问题措辞的程度。与ViLP手工构建的文本可答项目不同，我们在一个固定的540张图像集上跨四个变体改变措辞，并将其与大规模的无图像消融实验配对，将图像依赖性作为主要的实验变量而非次要诊断手段。  

### VLM评估基准。  
许多基准测试评估VLM在不同任务上的能力：MMMU和MMMU-Pro强调大学水平的学科推理（Yue et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib12), 2025 (https://arxiv.org/html/2606.10400#bib.bib13)）；MM-Vet、SEED-Bench和MMBench测试指令跟随与组合感知能力（Yu et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib14)；Li et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib15)；Liu et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib16)）；MMStar过滤掉了无需任何图像即可解答的项目（Chen et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib17)）；MathVista和MathVision针对数学视觉推理（Lu et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib8)；Wang et al., 2024a (https://arxiv.org/html/2606.10400#bib.bib9)）；ChartQA测试结构化图表解读（Masry et al., 2022 (https://arxiv.org/html/2606.10400#bib.bib18)）。这些基准测试衡量了广泛的能力，但每张图像通常只对应一个固定问题，因此难以区分归因于视觉内容的模型难度与归因于问题措辞的模型难度。通过为每张图像与基础问题的不同语言距离匹配四个变体，我们的基准直接控制了措辞，并衡量了随着问题要求更真实的视觉处理过程，准确率如何变化。  

### 自动与合成问题生成。  
随着模型在手工策划基准上接近人类表现，自动生成困难评估项变得越来越普遍。Li等人（2025 (https://arxiv.org/html/2606.10400#bib.bib54)）表明，强大的语言模型可以编写针对模型弱点的对抗性问题，而LLM作为评判者的范式（Zheng et al., 2023 (https://arxiv.org/html/2606.10400#bib.bib53)）在无法进行精确的答案匹配时，提供了一种可扩展的人工评分替代方案。我们的流程使用Gemini-2.5-Pro通过四种不同的提示策略（基础问题改写、子问题分解、多信号融合和直接仅图像生成）为每张图像生成四种问题变体，然后通过三种方式验证每个变体：Claude评分的难度、Claude评分的基线到最终文本相似度，以及通过专门构建的Web应用进行人工重新标注。这种多层验证使我们的方法区别于那些仅依赖生成并将LLM判断视为充分的先前合成基准。  

### 用于推理的强化学习后训练。  
基于可验证奖励的强化学习已成为增强多步推理的实用途径；Shao等人（2024 (https://arxiv.org/html/2606.10400#bib.bib44)）引入了GRPO，它用群体相对奖励基线取代了价值网络，而LoRA（Hu et al., 2022 (https://arxiv.org/html/2606.10400#bib.bib48)）使这种适应变得廉价。我们将GRPO与LoRA应用于Qwen3.5-4B，每个问题变体使用一个适配器，以测试文本先验依赖是否可以在分布内减少，并且这些收益是否能够迁移到来源纯净的分布外图像上。  

## 3 一个四变体图像依赖基准  
我们从覆盖六类推理任务的21个公开基准中精选了540张图像：OCR（72）、图表/图形理解（120）、常识与物理（79）、空间与场景推理（94）、视觉推理（155）和数学视觉推理（20）。来源基准包括MathVista（Lu et al., 2024 (https://arxiv.org/html/2606.10400#bib.bib8)）、ChartQA（Masry et al., 2022 (https://arxiv.org/html/2606.10400#bib.bib18)）、TextVQA（Singh et al., 2019 (https://arxiv.org/html/2606.10400#bib.bib20)）、DocVQA（Mathew et al., 2021 (https://arxiv.org/html/2606.10400#bib.bib21)）、GQA（Hudson and Manning, 2019 (https://arxiv.org/html/2606.10400#bib.bib25)）、OK-VQA（Marino et al., 2019 (https://arxiv.org/html/2606.10400#bib.bib26)）、ScienceQA（Lu et al., 2022 (https://arxiv.org/html/2606.10400#bib.bib10)）、AI2D（Kembhavi et al., 2016 (https://arxiv.org/html/2606.10400#bib.bib24)）、RealWorldQA（xAI, 2024 (https://arxiv.org/html/2606.10400#bib.bib32)）和CLEVR-Math（Lindström and Abraham, 2022 (https://arxiv.org/html/2606.10400#bib.bib30)）等；完整的来源到类别映射见附录D (https://arxiv.org/html/2606.10400#A4)。图像从每个来源中随机采样，并满足类别平衡目标。为了排除跨来源重复，每张图像都通过感知哈希提取指纹，任何近重复对在最终集合形成前予以移除。每张图像在四个问题变体中被重复使用，这些变体在表1 (https://arxiv.org/html/2606.10400#S3.T1)中总结，其类别分布见表2 (https://arxiv.org/html/2606.10400#S3.T2)。第一个变体，**问题引导**，将原始源问题与图像一起提供给Gemini-2.5-Pro（Comanici and others, 2025 (https://arxiv.org/html/2606.10400#bib.bib36)），并让其改写成一个更难、更依赖图像的形式。第二个变体，**子问题引导**，在单次推理中生成其感知子问题，并将它们综合成最终问题，使得措辞反映底层感知分解而非原始措辞。第三个变体，**多信号引导**，则是在多轮对话中逐轮引出子问题（每轮基于先前对话），并将其与源问题和对话摘要融合。第四个且最难变体，**视觉锚定**，仅向Gemini-2.5-Pro提供图像而无任何文本上下文，要求生成完全依赖于视觉内容；其结果是生成的措辞与任何现有标注都没有渊源关系。所有四种策略的逐字生成提示在附录A (https://arxiv.org/html/2606.10400#A1)中复现。固定图像集的同时改变问题措辞是核心设计选择。由于每个变体描述的是同一场景，模型在不同变体间准确率的差异不能归因于视觉内容的变化；它们必然反映每个措辞允许模型从记忆的文本模式而非图像中作答的程度。这一逻辑通过§5 (https://arxiv.org/html/2606.10400#S5)中描述的无图像消融实验得到验证：从六个开源模型中去掉图像后，准确率降至1–9%，证实了生成的问题不能仅凭文本回答。我们使用原始源问题作为参考层（**基础问题**），从而在相同的540张图像上提供了一个直接可比的更简单条件。所有四个生成的变体

视觉语言模型是在“看”还是在“猜”？通过措辞控制的基准测试衡量并减少对文本先验的依赖

相似文章

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

更多推理，更低准确性？论视觉语言模型中推理的双重性

看不清还是想不对？面向视觉语言推理的感知奖励

视觉-语言模型中可靠性的所在：注意力、隐藏状态与因果电路的机制研究

利用视觉-语言模型检测教育视频中的注意力

提交意见反馈