MathVis-Fine：通过渐进式依赖引导训练对齐视觉监督与必要性，实现多模态数学推理

arXiv cs.AI 2026/06/17 04:00 论文

摘要

本文介绍了MathVis-Fine，一个用于多模态数学推理中细粒度视觉依赖建模的框架，同时包含一个新数据集和一个两阶段渐进式训练范式，该范式根据每个样本固有的视觉依赖水平平衡答案正确性奖励和视觉接地奖励。

arXiv:2606.17888v1 公告类型: 新摘要: 思维链（CoT）推理已从纯语言领域扩展到多模态场景；然而，现有方法通常将视觉输入视为同质或辅助信号，未能捕捉数学问题求解中文本与图像之间复杂且样本特定的依赖关系。这导致两个核心问题：首先，视觉内容的监督信号泛化且粗粒度，缺乏对每个样本中视觉信息实际必要性的适应；其次，当视觉奖励被统一应用而不区分输入间的互补关系时，训练反馈变得不准确。这些限制阻碍了模型实现精确的多模态推理。在本工作中，我们提出了一个用于数学推理中细粒度视觉依赖建模的框架。我们首先构建了MathVis-Fine数据集，通过视觉依赖评级增强了细粒度视觉标注。基于该数据集，我们引入了一种两阶段渐进式视觉增强训练范式，该范式根据每个样本的内在视觉依赖水平平衡答案正确性奖励和视觉接地奖励，从而减轻奖励偏差并提高监督精度。大量实验表明，MathVis-Fine框架能够基于视觉依赖逐步有效地增强视觉感知，为多模态数学推理提供了更精确的训练框架。我们将在论文被接收后发布该数据集。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:39

# MathVis-Fine：通过渐进式依赖引导训练实现视觉监督与必要性的对齐，用于多模态数学推理  
来源：https://arxiv.org/html/2606.17888  

万诗宜1,\*, 赵浩坤2,\*, 袁海东3, 曹松军4, 马龙4,†  
1北京大学电子与计算机工程学院  
2复旦大学计算机科学与技术学院  
3北京大学软件与微电子学院  
4腾讯优图实验室  
{xwanshi, oseast}@stu.pku.edu.cn  
[email protected], {songjuncao, malonema}@tencent.com  

###### 摘要  

思维链（CoT）推理已从纯语言领域扩展到多模态场景；然而，现有方法往往将视觉输入视为同质或辅助信号，未能捕捉数学问题求解中文本与图像之间复杂且因样本而异的依赖关系。这导致了两个核心问题：首先，视觉内容的监督信号过于泛化和粗粒度，缺乏对每个样本中视觉信息实际必要性的适应；其次，当视觉奖励不加区分地应用，未能识别输入之间的互补关系时，训练反馈变得不准确。这些局限性阻碍了模型实现精确的多模态推理。在这项工作中，我们提出了一个用于数学推理中细粒度视觉依赖建模的框架。我们首先构建了MathVis-Fine数据集，通过视觉依赖评级丰富了细粒度的视觉标注。基于该数据集，我们引入了一种两阶段渐进式视觉增强训练范式，该范式根据每个样本内在的视觉依赖水平平衡答案正确性奖励和视觉定位奖励，从而减轻奖励偏差并提高监督精度。大量实验表明，MathVis-Fine框架能够基于视觉依赖逐步有效增强视觉感知，为多模态数学推理提供了一个更精确的训练框架。111论文被接收后，我们将发布该数据集。  

**MathVis-Fine：通过渐进式依赖引导训练实现视觉监督与必要性的对齐，用于多模态数学推理**  
万诗宜1,\*, 赵浩坤2,\*, 袁海东3, 曹松军4, 马龙4,†  
1北京大学电子与计算机工程学院  
2复旦大学计算机科学与技术学院  
3北京大学软件与微电子学院  
4腾讯优图实验室  
{xwanshi, oseast}@stu.pku.edu.cn  
[email protected], {songjuncao, malonema}@tencent.com  
*这些作者对本文贡献相同。  
†通讯作者。  

## 1 引言  

近年来，多模态大语言模型（MLLMs）[OpenAI, 2023 (https://arxiv.org/html/2606.17888#bib.bib85)；Liu等人, 2023 (https://arxiv.org/html/2606.17888#bib.bib44)]在数学推理任务中的应用取得了显著进展。这类任务要求模型处理并整合文本与视觉信息，以解决复杂问题。尽管传统大语言模型（LLMs）[Touvron等人, 2023 (https://arxiv.org/html/2606.17888#bib.bib100)；Achiam等人, 2023 (https://arxiv.org/html/2606.17888#bib.bib118)；Yang等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib117)]在纯文本领域展现了强大的推理能力，但将这些能力扩展到多模态场景，尤其是涉及数学图表、几何图形或符号视觉表示的任务，仍然是一个具有挑战性的前沿问题。数学问题中的视觉成分引入了独特的困难[An等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib115)]。首先，数学图像通常包含精确的几何关系、符号标注和空间配置，这些是通用视觉编码器或简单的边界框标注无法充分捕捉的。其次，现有方法倾向于采用统一的视觉处理流程，忽略了每个问题对视觉信息的实际依赖程度。有些问题可能高度依赖视觉信息（例如，几何证明），而另一些问题则主要可以通过文本逻辑解决。这种过度简化导致了两个关键问题：(1) 当图像至关重要时，视觉定位不足；(2) 当图像相关性较低时，产生不必要的计算开销和潜在的噪声。  

目前增强数学MLLMs视觉感知的策略[Xiao等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib112)；Wang等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib111)]通常包括加强视觉注意机制、引入额外的视觉监督和奖励、集成外部视觉工具、或增加视觉标注的粒度。然而，这些方法有一个共同的局限性：它们将所有样本视为具有相同的视觉依赖程度。实际上，不同数学领域甚至不同问题类型对视觉信息的依赖程度存在显著差异。忽略这种差异性会导致监督信号错位：在文本主导的问题中过度惩罚视觉错误，而在视觉关键的问题中对视觉准确性的强调不足。  

为了解决这些局限性，我们提出了MathVis-Fine框架，该框架明确建模并适应多模态数学推理中变化的视觉依赖关系。我们的核心见解是：有效的多模态推理不仅需要增强视觉感知，还需要使视觉感知适应每个问题的特定视觉需求。我们做出了以下三项关键贡献：  

- **MathVis-Fine数据集**：我们构建了一个包含约5400个数学问题的数据集，每个问题都附有细粒度的视觉依赖评级以及文本推理短语与相应视觉区域之间的步骤级对齐。  
- **两阶段视觉依赖引导训练流程**：我们开发了一种渐进式训练策略，首先通过冷启动SFT来增强对高依赖样本的视觉感知，最后在强化学习阶段采用视觉依赖奖励机制。  
- **多维视觉奖励机制**：我们在GRPO阶段引入了一种多维视觉奖励，有效评估视觉区域检索和视觉内容识别的准确性，从而为视觉感知提供更精确、高效的反馈。  

我们的实验表明，MathVis-Fine在多个多模态数学基准测试中显著优于现有方法，验证了在数学推理中对变化视觉依赖建模的重要性。  

## 2 相关工作  

#### 用于数学的MLLMs。  
近年来，多模态大语言模型（MLLMs）[OpenAI, 2023 (https://arxiv.org/html/2606.17888#bib.bib85)；Liu等人, 2023 (https://arxiv.org/html/2606.17888#bib.bib44)；Bai等人, 2023 (https://arxiv.org/html/2606.17888#bib.bib45)；Jiang等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib109)]在各种视觉-语言任务中展现了卓越的能力。因此，出现了各种专门的方法[Gao等人, 2023 (https://arxiv.org/html/2606.17888#bib.bib43)；Zhang等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib25)；Huang等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib39)；Deng等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib38)；Luo等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib37)；Shi等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib36)；Peng等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib35)]来增强视觉数学推理能力。例如，G-LLaVA[Gao等人, 2023 (https://arxiv.org/html/2606.17888#bib.bib43)]和Math-LLaVA[Shi等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib36)]等方法采用数据集增强策略来扩大数据覆盖范围，从而使模型适应专门的数学任务。值得注意的是，MAVIS[Zhang等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib25)]引入了一个完全自动化的数据生成引擎，用于策划大规模数学视觉数据集。它采用四阶段训练流程：首先训练专门的视觉编码器，然后进行视觉-语言对齐、指令微调，最后通过直接偏好优化（DPO）增强CoT推理。在强化学习领域，MM-Eureka[Meng等人, 2025a (https://arxiv.org/html/2606.17888#bib.bib70)]将带有可验证奖励的强化学习（RLVR）扩展到数学推理任务，无需冷启动初始化，在多模态推理中取得了显著改进。此外，Vision-R1[Huang等人, 2025b (https://arxiv.org/html/2606.17888#bib.bib116)]采用了一种训练范式，包括在长CoT数据上进行冷启动微调，然后进行大规模RL，在多个多模态数学基准测试中达到了最先进的性能。  

#### 视觉思维链。  
借助视觉推理任务的进步[Lu等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib29)；Yue等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib62)；Jiang等人, 2025b (https://arxiv.org/html/2606.17888#bib.bib34)]，视觉思维链（Visual CoT）已成为图像生成和理解的有效范式[Guo等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib104)；Jiang等人, 2025a (https://arxiv.org/html/2606.17888#bib.bib105)；Tong等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib106)；Zhuo等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib107)；OpenAI, 2024 (https://arxiv.org/html/2606.17888#bib.bib108)；Yao等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib28)；Team, 2025 (https://arxiv.org/html/2606.17888#bib.bib76)]。早期的迭代，如Visual CoT[Shao等人, 2024a (https://arxiv.org/html/2606.17888#bib.bib17)]和Chain-of-Spot[Liu等人, 2024 (https://arxiv.org/html/2606.17888#bib.bib56)]，提出裁剪高注意力图像区域并将其整合到思维链过程中。尽管展示了有前景的性能，但这些方法通常受限于僵化的图像裁剪启发式方法或对外部工具的依赖。相比之下，MINT-CoT[Chen等人, 2025b (https://arxiv.org/html/2606.17888#bib.bib113)]通过在训练过程中引入显式检索目标，增强了Visual CoT中视觉信息的定位。这种方法改进了模型对数学推理所必需的细粒度视觉细节的感知和注意力聚焦。  

#### 强化学习中的感知对齐。  
尽管RLVR在文本推理中取得了显著进展[Wang等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib111)；Xiao等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib112)]，但其直接应用于多模态领域遇到一个关键的感知瓶颈。最近的研究表明，标准的RLVR通常鼓励模型绕过视觉感知，导致模型基于文本偏差产生幻觉性的正确答案，而非有效的视觉证据[An等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib115)]。为了解决这个问题，最近的工作提出将感知相关的信号直接纳入优化过程。Perception-R1[Xiao等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib112)]引入了一个显式的**视觉感知奖励**。通过从正确的推理轨迹中提取原子视觉事实（例如，几何关系），并使用判断模型验证它们是否出现在生成的推理过程中，它强制了视觉输入与文本输出之间更紧密的对齐。相反，PAPO[Wang等人, 2025 (https://arxiv.org/html/2606.17888#bib.bib111)]提出了一种通过视觉增强进行隐式监督的机制。它设计了一个隐式感知损失，如果模型在没有依赖有效视觉特征的情况下产生高置信度答案，则对其进行惩罚。然而，在复杂的数学推理中，视觉信号具有高度结构化和细粒度的特点。通过全局奖励信号或图像级增强实现的统一增强策略无法区分视觉信息的内在异质性。  

## 3 方法  

参考图注  
图1：框架概览，首先构建一个带有细粒度视觉依赖标注的数据集。**阶段1**在监督微调（SFT）期间采用**检索-感知协同**策略来增强视觉感知。**阶段2**利用**多维视觉依赖强化学习（MDVD-RL）**。通过整合两个视觉奖励并利用依赖分数λv\lambda_v作为门控因素，该阶段通过GRPO进一步提升细粒度多模态推理能力。  

### 3.1 MathVis-Fine数据集  

为了使框架具备异质性视觉感知能力，我们开发了一个增强的数据生成流程，该流程生成带有细粒度令牌级对齐标注和视觉依赖分数的数学视觉交错样本。该流程生成了包含5.4K高质量训练样本的数据集，用于SFT和RL。  

**数据生成与结构**  
我们基于来自MINT-CoT数据集[Chen等人, 2025b (https://arxiv.org/html/2606.17888#bib.bib113)]的数学问题构建数据集，该数据集提供了带有细粒度视觉块索引对齐的高质量推理链。引入视觉依赖标注λv\lambda_v的动机源于先前方法的一个关键局限性：将所有多模态问题视为具有统一的视觉重要性。通过显式量化视觉必要性的程度，我们的数据集使训练流程能够：(i) 在训练期间将计算资源集中在视觉信息关键的样本上；(ii) 设计由λv\lambda_v加权的损失函数和奖励机制，确保视觉定位根据其实际相关性得到成比例的强调；(iii) 促进对不同视觉需求问题的模型性能进行更细致的评估。  

**视觉依赖标注**：该标注通过基于规则的协议实现，随后进行人工抽样检查。标注过程通过向模型提供问题文本、相关图像以及一个结构化提示自动执行，该提示基于定义的准则指导评估。最终输出将视觉依赖分为三个级别：  

- **λv=1.0\boldsymbol{\lambda_v=1.0}（高）**：图像包含解决问题所需的核心且不可或缺的信息（例如，未陈述的几何关系、图表数据）。没有视觉输入则无法解决问题。  
- **λv=0.5\boldsymbol{\lambda_v=0.5}（中）**：图像提供重要的上下文或澄清信息，补充文本内容。理论上仅使用文本可以解决问题，但如果没有图像，将变得明显更困难或更模糊。  
- **λv=0.0\boldsymbol{\lambda_v=0.0}（低）**：图像是冗余的或纯粹装饰性的。所有必要信息已在文本中完整且准确地描述。  

我们数据集中的每个最终样本构成一个结构化的输入-输出对。输入包括原始数学问题qq（文本）及其对应的图表、图示或图形表示II（图像）。输出包括：(1) 一个视觉交错链...

MathVis-Fine：通过渐进式依赖引导训练对齐视觉监督与必要性，实现多模态数学推理

相似文章

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

OmniThoughtVis：一种用于部署型多模态推理模型的可扩展蒸馏流水线

通过工具监督强化学习实现视觉推理

Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

通过过程监督改进数学推理

提交意见反馈