视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
摘要
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
arXiv:2604.16256v1 公告类型:交叉
摘要:视觉语言模型(VLMs)中的推理最近吸引了大量关注,因为它在多种下游任务中具有广泛的应用。然而,VLMs 的优越性能是源于真正的视觉接地推理,还是主要依赖于其文本骨干网络的推理能力,这仍然不清楚。为了系统地衡量这一点,我们引入了 CrossMath,一个专为受控跨模态比较而设计的新型多模态推理基准。具体来说,我们以纯文本、纯图像和图像+文本格式构建每个问题,确保任务相关信息相同,并由人类注释者验证。这种严格的对齐有效地隔离了模态特异性推理的差异,同时消除了诸如信息不匹配等混淆因素。对最先进VLMs的广泛评估揭示了一个一致的现象:文本推理和视觉推理之间存在显著的性能差距。值得注意的是,VLMs在纯文本输入上表现出色,而融合视觉数据(图像+文本)相比纯文本基线经常会降低性能。这些发现表明当前VLMs主要在文本空间进行推理,对视觉证据的真正依赖有限。为了缓解这一局限,我们为VLM微调精选了CrossMath训练集。实证评估表明,在该训练集上进行微调可以显著提升所有单个和联合模态的推理性能,同时在两个通用视觉推理任务上获得稳健的收益。源代码可在 https://github.com/xuyige/CrossMath 获取。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 视觉语言模型真的能进行视觉推理吗?模态差距的严格研究 来源: https://arxiv.org/html/2604.16256 Yige Xu1,2,∗, Yongjie Wang2,∗, Zizhuo Wu1, Kaisong Song3, Jun Lin3, Zhiqi Shen1,† 1南洋理工大学计算与数据科学学院,新加坡 2阿里巴巴-NTU全球电子可持续发展联合实验室(ANGEL) 3阿里巴巴通义实验室,中国 [email protected],{yongjie.wang,zqshen}@ntu.edu.sg ###### 摘要 视觉语言模型(VLM)中的推理最近因其在多种下游任务中的广泛适用性而受到关注。然而,VLM优越性能是源于真正的视觉推理还是主要依赖于文本骨干网络的推理能力仍不清楚。为了系统地衡量这一点,我们引入了CrossMath,一个为受控跨模态比较而设计的新颖多模态推理基准。具体来说,我们构建了纯文本、纯图像和图像+文本三种格式的问题,确保包含相同的与任务相关的信息,并由人类注释者验证。这种严格的对齐有效地隔离了模态特定的推理差异,同时消除了信息不匹配等混淆因素。对最先进的VLM的广泛评估揭示了一个一致的现象:文本推理和视觉推理之间存在显著的性能差距。值得注意的是,VLM在纯文本输入上表现最好,而纳入视觉数据(图像+文本)与纯文本基线相比通常会降低性能。这些发现表明当前VLM主要在文本空间进行推理,对视觉证据的真正依赖有限。为了缓解这一限制,我们策划了一个CrossMath训练集用于VLM微调。实证评估表明,在该训练集上进行微调会显著提升所有单一模态和联合模态的推理性能,同时在两个通用视觉推理任务上产生强劲的收益。源代码可在https://github.com/xuyige/CrossMath获取。 ∗∗脚注:前两位作者贡献相同。††脚注:通讯作者。 ## 1 引言 基于大语言模型(LLM)取得的深远成功(OpenAI,2023; Dubey et al.,2024; Yang et al.,2024; DeepSeek-AI,2025; Qwen Team,2025),最近的进展已迅速推动了视觉语言模型(VLM)的发展(Liu et al.,2023; Qwen Team,2026; Singh et al.,2026)。通过将视觉输入与纯文本无缝集成,这些模型在多种应用中展现了强大的潜力,从图像标题、视觉问答到文档理解和视觉定位。为了实现这种广泛的多模态智能,现代VLM通常依赖于标准化的模块化流程:视觉编码器提取视觉特征,跨模态投影器将这些表示与潜在语言空间对齐,预训练的文本解码器执行最终的自回归生成(Liu et al.,2023; Qwen Team,2026)。 尽管这些模型在多模态基准上表现令人印象深刻,但这些模型是否真正进行视觉推理,还是仅仅利用文本骨干网络的固有推理能力,仍然在很大程度上未被探索。因此,将真正的视觉推理与文本依赖区分开来已成为评估现代VLM的核心问题。 然而,现有基准始终未能单独解开这些模态。一方面,许多现有基线(Yu et al.,2024; Yue et al.,2025; 2024)要么仅评估表面级视觉识别,要么严重利用文本先验。它们无法满足严格的视觉密集任务的要求,这些任务需要完全基于视觉空间的多步空间和几何推理。因此,这些基准无法捕捉VLM真正视觉推理能力的细致差异。另一方面,虽然较新的基准(Hao et al.,2025; Yao et al.,2025; Stogiannidis et al.,2025; Xu et al.,2026)引入了复杂的多模态场景,如数学、物理和化学问题,但它们的问题表述通常深度纠缠——需要同时进行视觉和文本输入。因为任一模态的缺失都会使问题本质上无法解决,这些纠缠的任务无法用于隔离和评估模态特定的推理能力。 为了严格分析真正的视觉推理能力,我们主张有效的评估必须满足三个核心原则。首先,**任务必须本质上是"视觉优先"的**。实现最优性能应该在很大程度上依赖于对空间、几何或物理动力学的推理。换句话说,任务必须提供逐步信号以验证中间视觉推理过程,以及确定性的基准真实答案以评估最终输出的正确性。其次,**数据集应该包含分层的问题难度分布**。系统地控制难度可以防止性能饱和或地板效应,从而使基准能够有效地区分不同参数规模的VLM的推理能力。第三,**基准必须在视觉和文本格式中提供严格等价的问题**。这保证了性能差异完全源于模型的模态特定推理能力,而不是信息不完整。通过消除信息不对称的混淆效应,我们确保任一模态的缺失不会使问题无法解决。 基于上述讨论,我们引入了CrossMath,一个精心设计的多模态推理基准,用于定量隔离和评估视觉-文本推理能力。CrossMath任务要求VLM推断2D空间网格内相交数学方程中的缺失值,并按顺序(从上到下,从左到右)输出预测数字。这种设计明确满足了我们的三个评估原则:首先,2D布局的相交方程本质上要求空间几何理解和逐步逻辑演绎,提供明确的中间信号和确定性基准真实答案。其次,程序化生成允许我们通过调整网格大小、缺失方程数量和操作符复杂性来精确控制难度级别,从而保证足够的判别力以评估不同参数规模的VLM。最后,为了消除模态混淆,每个CrossMath难题都被表述为三种严格等价的格式——仅图像网格、纯文本Markdown表、以及图像+文本提示——确保所有设置中相同的与任务相关的信息。 为了支持严格的评估并展示后训练的有效性,我们构建了CrossMath基准,具有三个难度级别,包含5,000个训练样本和250个评估样本。为了确保严格的质量控制,我们招募人类注释者手动验证所有250个评估样本中的跨模态信息等价性。通过对最先进的VLM进行广泛评估,我们发现了一个违反直觉的现象:模型在纯文本输入上实现最高性能,在集成视觉数据时经历意外的性能下降,在仅视觉条件下性能最差。这表明当前VLM主要依赖文本捷径而不是真正的视觉推理。 为了缓解这一模态差距,我们在CrossMath训练集上使用监督微调(SFT)和群组相对策略优化(GRPO)(DeepSeek-AI,2025),仅使用基于图像的输入对Qwen3.5-9B进行后训练。实证结果表明,我们的后训练显著提升了视觉推理并有效地缩小了模态间的性能差距。此外,分布外评估表明这种后训练保留了模型的原始能力,并在外部基于视觉的数学任务上产生了一致的收益。 本工作的主要贡献总结如下: (1) **严格评估与基准**:我们提出了一种系统的方法来测量VLM中的模态特定推理能力。为了支持这一点,我们构建了CrossMath,一个严格控制、多模态等价的数据集,提供细粒度推理评估的逐步视觉注释。 (2) **暴露模态差距**:通过对最先进的VLM的系统评估,我们实证证明了这些模型主要依赖于文本级推理捷径,通常将视觉输入视为次要的和有害的因素。 (3) **有效的后训练与稳健转移**:我们确立了纯图像后训练在纠正这些缺陷方面的有效性,不仅促进真正的视觉基础,而且在不损害模型固有能力的情况下推动强劲的分布外转移。 ## 2 相关工作 ### 2.1 测量VLM中的视觉-文本推理差距 虽然文本推理已被社区广泛探索(Wei et al.,2022; Yao et al.,2023; Wang et al.,2023; Xu et al.,2025a; b),但越来越多的工作表明,视觉语言模型(VLM)中强大的语言侧推理并不会自动转化为视觉基础推理。早期研究将空间推理失败与弱对象定位和定位联系起来,表明感知不精确可以传播到下游推理错误(Rajabi & Kosecka,2023; Chen et al.,2025)。更近期的基准强化了这一限制:最先进的VLM在空间推理、图表理解、ARC风格的变换和其他成功取决于视觉结构而非语言先验或知识回忆的设置中仍然很脆弱(Stogiannidis et al.,2025; Unsal & Akkus,2025; Tang et al.,2025; Xu et al.,2026)。 关于可视化文本的相关工作进一步表明,即使在语义上等价的内容一旦被可视化渲染而不是作为纯文本提供,它也会变得实质上更难,突显了语言空间推理和图像基础推理之间的持久差距(Liu et al.,2026)。机制分析同样表明,在当前VLM中感知和推理仅保持弱耦合(Chen et al.,2025; Li et al.,2025)。 尽管取得了这些进展,现有研究尚未提供模态特定推理的完全受控测量。一些基准能诊断视觉失败,但不提供严格匹配的纯文本和纯图像版本的相同问题。其他评估数学和科学等领域中的多模态推理,但它们的任务本质上是模态纠缠的:图像和文本是互补的而非可互换的,因此移除任一模态会改变任务可解性(Yue et al.,2024; 2025; Zhang et al.,2024; Hao et al.,2025; Yao et al.,2025)。因此,跨模态性能差异难以解释,因为它们可能反映信息不对称而不是模态特定的推理能力。CrossMath旨在通过构建相同难题的语义等价的纯文本、纯图像和图像+文本版本来解决这一差距,使得能够直接比较不同模态之间的推理性能。 ### 2.2 视觉推理基准 视觉推理基准跨越广泛的任务族,包括归纳、类比、算法、演绎和空间/几何推理(Lymperaiou et al.,2026)。早期的抽象难题基准如PuzzleVQA故意最小化对世界知识的依赖,而是强调对数字、颜色、形状和大小等属性的规则归纳(Chia et al.,2024)。最近的数据集通过知识轻量视觉难题、基于网格的推理任务和ARC风格的变换来扩展这一议程,这些需要多步推理和自我纠正(Song et al.,2025; Ren et al.,2025; Unsal & Akkus,2025)。 互补的工作线则聚焦于基于概念和空间基础的推理。Bongard风格的数据集测试模型是否能从正负视觉示例集合中推断潜在概念(Wüst et al.,2025),而空间推理基准在抽象和自然图像设置中探测相对位置、布局理解、规划和对部分观察场景的推理(Mayer et al.,2025; Lyu et al.,2025; Pothiraj et al.,2025; Khezresmaeilzadeh et al.,2026)。 总的来说,这些基准已表明许多VLM在推理依赖于几何、拓扑或隐藏结构而非语义先验时会举步维艰。相关多模态数学和科学基准,包括MMMU/MMMU-Pro、MathVerse、EMMA和MMReason,推动模型朝着对图表、图形和文本上下文的更现实的专家级推理发展(Yue et al.,2024; 2025; Zhang et al.,2024; Hao et al.,2025; Yao et al.,2025)。这些数据集对评估端到端多模态能力很有价值,但它们的设计目的不是隔离模态特定推理,因为...
相似文章
视觉的代价:在单一范式中实现可信的多模态推理
本文挑战了当前视觉语言模型忠实地融合多模态数据的假设,提出了一种基于信息论的 Modality Translation Protocol,并引入了新指标(Toll、Curse、Fallacy of Seeing)来评估可信度,而非传统的多模态增益。
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。
从看到思考:解耦感知与推理改进视觉语言模型的后训练
本文提出一种分阶段训练方法,将视觉感知、视觉推理和文本推理分离为不同阶段。该方法提高了视觉推理准确性,同时缩短了推理链条长度,表明更强的感知能力可减少对过度推理的需求。