Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

arXiv cs.CL 论文

摘要

Faithful-MR1 是一个训练框架,通过 <Focus> 令牌锚定视觉注意,并利用反事实图像干预强化可信使用,从而提升多模态大语言模型(MLLM)中可信的多模态推理能力。它在使用更少训练数据的情况下,在 Qwen2.5-VL 骨干网络上的表现优于基线模型。

arXiv:2605.22072v1 公告类型:新 摘要:基于可验证奖励的强化学习(RLVR)已成为推动大语言模型复杂推理的一种有前景的范式,近期研究将其扩展至多模态大语言模型(MLLM)。然而,这种迁移暴露出一个可信性挑战:对任务相关视觉证据的可信感知,以及在推理过程中可信地使用这些证据,导致在多模态基准测试上的收益不理想。具体而言,现有的感知监督通常基于文本描述而非图像区域本身进行,而可信使用方面则被严重忽视,暴露出感知-推理脱节的问题——即在推理过程中正确感知到的证据被丢弃或矛盾。为弥合这些差距,我们提出了 Faithful-MR1,这是一个通过锚定和强化视觉注意力来解决可信多模态推理两个方面的训练框架。锚定阶段将感知转化为一个明确的推理前子任务,直接监督专门的 <Focus> 令牌对图像区域的注意力,而非通过文本描述。强化阶段通过反事实图像干预来暴露可信使用,奖励那些将视觉注意力集中在视觉因果相关区域的正确回答轨迹。大量实验表明,Faithful-MR1 在使用远少于其他方法的训练数据的情况下,在 Qwen2.5-VL-Instruct 3B 和 7B 骨干网络上均优于近期多模态推理基线。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:45

# Faithful-MR1: 通过锚定与强化视觉注意力实现忠实多模态推理  
来源:https://arxiv.org/abs/2605.22072  
查看 PDF(https://arxiv.org/pdf/2605.22072)  

> **摘要:** 基于可验证奖励的强化学习(RLVR)已成为推动大语言模型复杂推理的前沿范式,近期工作已将 RLVR 扩展至多模态大语言模型(MLLMs)。然而,这一迁移暴露出一个忠实性难题:对任务相关视觉证据的忠实感知,以及推理过程中对这些证据的忠实使用,导致在多模态基准上的收益不尽人意。具体而言,现有的感知监督通常基于文本描述而非直接针对图像区域,而忠实使用问题则被严重忽视,暴露出感知与推理之间的脱节——正确感知的证据在推理过程中被丢弃或矛盾。为弥合这些差距,我们提出 Faithful-MR1,一种通过锚定与强化视觉注意力来同时解决忠实多模态推理两方面的训练框架。**锚定阶段**将感知转化为一个明确的预推理子任务,直接监督一个专用 token 注意力与图像区域的对应,而非通过文本描述。**强化阶段**通过反事实图像干预暴露忠实使用问题,奖励那些在视觉因果关键处集中视觉注意力并得到正确答案的轨迹。大量实验表明,Faithful-MR1 在使用显著更少训练数据的情况下,在 Qwen2.5-VL-Instruct 3B 和 7B 骨干网络上均优于近期多模态推理基线。  

## 提交历史  
来自:Changyuan Tian \[查看邮箱(https://arxiv.org/show-email/eb2b2537/2605.22072)\]  
**\[v1\]** 2026年5月21日星期四 07:10:18 UTC(7,377 KB)

相似文章

AtManRL: 通过可微分注意力显著性实现忠实推理

arXiv cs.CL

AtManRL 是一种通过可微分注意力操作和强化学习来训练大语言模型的方法,旨在确保推理令牌因果地影响最终预测,从而生成更忠实的思维链推理。在 GSM8K 和 MMLU 上使用 Llama-3.2-3B 进行的实验表明,该方法能够识别具有影响力的推理令牌并提高推理透明度。

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。