Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

arXiv cs.CL 2026/05/22 04:00 论文

摘要

Faithful-MR1 是一个训练框架，通过 <Focus> 令牌锚定视觉注意，并利用反事实图像干预强化可信使用，从而提升多模态大语言模型（MLLM）中可信的多模态推理能力。它在使用更少训练数据的情况下，在 Qwen2.5-VL 骨干网络上的表现优于基线模型。

arXiv:2605.22072v1 公告类型：新摘要：基于可验证奖励的强化学习（RLVR）已成为推动大语言模型复杂推理的一种有前景的范式，近期研究将其扩展至多模态大语言模型（MLLM）。然而，这种迁移暴露出一个可信性挑战：对任务相关视觉证据的可信感知，以及在推理过程中可信地使用这些证据，导致在多模态基准测试上的收益不理想。具体而言，现有的感知监督通常基于文本描述而非图像区域本身进行，而可信使用方面则被严重忽视，暴露出感知-推理脱节的问题——即在推理过程中正确感知到的证据被丢弃或矛盾。为弥合这些差距，我们提出了 Faithful-MR1，这是一个通过锚定和强化视觉注意力来解决可信多模态推理两个方面的训练框架。锚定阶段将感知转化为一个明确的推理前子任务，直接监督专门的 <Focus> 令牌对图像区域的注意力，而非通过文本描述。强化阶段通过反事实图像干预来暴露可信使用，奖励那些将视觉注意力集中在视觉因果相关区域的正确回答轨迹。大量实验表明，Faithful-MR1 在使用远少于其他方法的训练数据的情况下，在 Qwen2.5-VL-Instruct 3B 和 7B 骨干网络上均优于近期多模态推理基线。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:45

# Faithful-MR1: 通过锚定与强化视觉注意力实现忠实多模态推理  
来源：https://arxiv.org/abs/2605.22072  
查看 PDF（https://arxiv.org/pdf/2605.22072）  

> **摘要：** 基于可验证奖励的强化学习（RLVR）已成为推动大语言模型复杂推理的前沿范式，近期工作已将 RLVR 扩展至多模态大语言模型（MLLMs）。然而，这一迁移暴露出一个忠实性难题：对任务相关视觉证据的忠实感知，以及推理过程中对这些证据的忠实使用，导致在多模态基准上的收益不尽人意。具体而言，现有的感知监督通常基于文本描述而非直接针对图像区域，而忠实使用问题则被严重忽视，暴露出感知与推理之间的脱节——正确感知的证据在推理过程中被丢弃或矛盾。为弥合这些差距，我们提出 Faithful-MR1，一种通过锚定与强化视觉注意力来同时解决忠实多模态推理两方面的训练框架。**锚定阶段**将感知转化为一个明确的预推理子任务，直接监督一个专用 token 注意力与图像区域的对应，而非通过文本描述。**强化阶段**通过反事实图像干预暴露忠实使用问题，奖励那些在视觉因果关键处集中视觉注意力并得到正确答案的轨迹。大量实验表明，Faithful-MR1 在使用显著更少训练数据的情况下，在 Qwen2.5-VL-Instruct 3B 和 7B 骨干网络上均优于近期多模态推理基线。  

## 提交历史  
来自：Changyuan Tian \[查看邮箱（https://arxiv.org/show-email/eb2b2537/2605.22072）\]  
**\[v1\]** 2026年5月21日星期四 07:10:18 UTC（7,377 KB）

Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

相似文章

AtManRL: 通过可微分注意力显著性实现忠实推理

MathVis-Fine：通过渐进式依赖引导训练对齐视觉监督与必要性，实现多模态数学推理

看不清还是想不对？面向视觉语言推理的感知奖励

iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型

增强多模态推理以对抗视觉退化

提交意见反馈