看不清还是想不对?面向视觉语言推理的感知奖励

arXiv cs.AI 论文

摘要

本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。

arXiv:2605.14054v1 Announce Type: new \nAbstract: 实现稳健的感知-推理协同是高级视觉语言模型(VLM)的核心目标。近期进展通过架构设计或智能体工作流来追求这一目标。然而,这些方法常受限于静态文本推理,或受制于外部智能体复杂性带来的巨大计算和工程负担。更糟糕的是,这种大量投入并未带来相应的收益,反而经常观察到感知和推理之间的“跷跷板效应”。这促使我们从根本上重新思考真正的瓶颈所在。本文认为,这种权衡的根源在于模态信用分配中的模糊性:当VLM失败时,是由于感知缺陷(“看不清”)还是逻辑缺陷(“想错了”)?为了解决这一问题,我们引入了一种强化学习框架,通过可靠地奖励感知保真度来提升感知-推理协同。我们将生成过程明确分解为交错的感知和推理步骤。这种解耦使得能够对感知进行有针对性的监督。关键是,我们引入了感知验证(PV),利用“蒙眼推理”代理独立于推理结果来奖励感知保真度。此外,为了将训练扩展到自由形式的VL任务,我们提出了结构化言语验证,用结构化的算法执行替代高方差的LLM评判。这些技术被集成到模态感知信用分配(MoCA)机制中,该机制将奖励路由到具体的错误源——要么是看不清,要么是想错了——从而使单个VLM能够在广泛的任务谱系上同时获得性能提升。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:20

# 差在看到还是差在想?为视觉-语言推理中的感知提供奖励  
来源:https://arxiv.org/html/2605.14054  

徐启鑫,王长鹏,薛涛峰,彭翀,陈文虎,林方真  

感知、奖励、视觉-语言、推理  

## 摘要  

实现稳健的感知-推理协同是高级视觉-语言模型(VLM)的核心目标。近期进展通过架构设计或代理式工作流来追求这一目标。然而,这些方法往往受限于静态文本推理,或被外部代理复杂性的巨大计算与工程负担所困扰。更糟的是,这种高投入并未带来成比例的增长,反而常出现感知与推理之间的“跷跷板效应”。这促使我们从根本上重新思考真正的瓶颈所在。本文认为,这种权衡的根本原因是模态信用分配的模糊性:当 VLM 失败时,是由于有缺陷的感知(”差在看到”)还是有缺陷的逻辑(”差在想”)?为了解决这一问题,我们引入了一个强化学习框架,通过可靠地奖励感知保真度来改善感知-推理协同。我们将生成过程显式分解为交错的感知步骤和推理步骤。这种解耦使得能够对感知进行有针对性的监督。关键之处在于,我们引入了感知验证(PV),利用“蒙眼推理”代理来独立于推理结果奖励感知保真度。此外,为了将训练扩展到自由形式的 VL 任务,我们提出了结构化口头验证(SVV),该验证用结构化的算法执行替代了高方差的 LLM 评判。这些技术集成到模态感知信用分配(MoCA)机制中,该机制将奖励路由到具体的错误源头——要么是差在看到,要么是差在想——从而使单个 VLM 能够在广泛的任务谱系上同时获得性能提升。  

## 1 引言  

人类通过视觉感知(看)与认知推理(想)之间无缝、协同的相互作用来认知世界。我们并非先“看”一次,然后孤立地“想”;而是不断地重新审视视觉证据,以形成、验证和完善假设。这种紧密的循环——认知引导感知,感知又支撑认知——我们称之为感知-推理协同,是稳健、可泛化智能的标志。实现这种协同一直是高级视觉-语言模型(VLM)的核心追求,并催生了不同的架构范式。最初的架构(如 Qwen-VL)侧重于隐式融合视觉标记和文本嵌入,依靠模型静态的文本推理来处理融合后的信息 (Liu et al., 2023; Xu et al., 2025a; Wang et al., 2024; Bai et al., 2025)。近期的工作则追求“用图像思考”,通过引入视觉操作 (Wang et al., 2025d) 来实现主动感知,更贴近人类的协同循环。然而,这些主动感知模型通常通过复杂的多轮函数调用或代理框架来实现。这种方法引入了显著的计算和工程负担,例如实现多轮 RL 训练和处理长尾回合的异步问题,并且常常导致“跷跷板效应”,即微小的视觉增益以牺牲推理能力为代价 (Jiang et al., 2025; Wang et al., 2025d)。我们认为,一个关键但尚未充分探索的、视觉-语言推理所特有的瓶颈,是缺乏对感知的直接监督信号。当前的训练范式无法为视觉-语言推理提供模态感知的反馈。推理错误是由有缺陷的感知(差在看到)还是有缺陷的逻辑(差在想)造成的?这种模态信用分配中的模糊性被忽视了,而且具有挑战性,因为 VLM 的感知本质上难以访问:它要么 (a) 隐藏在潜在状态激活中,要么 (b) 与最终文本输出中的推理组件密不可分地纠缠在一起。这种纠缠使得几乎不可能独立于逻辑来监督感知。这引出了一个问题:*我们能否通过外部化感知并直接对其奖励来改进多模态推理?* 我们的答案是肯定的。  

在这项工作中,我们探索了一种简单的方法来外部化感知,利用指令遵循能力在生成过程中强制结构分离:以感知为中心的块(例如,<perception>)隔离视觉证据,与以推理为中心的块(例如,<reasoning>)交错排列(图2 (https://arxiv.org/html/2605.14054#S2.F2))。这种选择将 VLM 感知这个不透明的“黑盒”转变为透明的序列,暴露了错误的具体位置——差在看到还是差在想——并使我们能够将难以处理的联合监督问题重新表述为两个可解决的、组件级别的挑战:  

1. **感知验证**:如何独立于最终推理步骤,专门监督模型感知的质量?  
2. **结果验证**:为了在广泛的任务谱系上实现改进,如何可靠地奖励自由形式的答案,避免正则表达式的脆弱性和标准 LLM 评判的高方差?  

由于显式的感知被隔离在文本空间中,我们解决了第一个挑战:缺乏中间视觉描述的真实标签。我们引入了**通过代理进行感知验证**。我们的关键洞察是,在显式的视觉-语言推理中,视觉细节充当逻辑推理的离散前提;因此,感知的充分性可以通过推理的可行性来衡量。我们将其实现为“蒙眼推理”测试:将 VLM 的视觉证据输入到一个强大的纯文本推理器中,同时扣留图像。如果这个纯文本代理仅使用 VLM 的描述就能正确回答用户的问题,则表明感知块已成功捕获了任务所需的充分统计量。该信号奖励 VLM 的不是生成通用描述,而是提取支持下游推理所必需的精确视觉事实。  

代理验证了感知,但我们也必须确保对最终推理结果进行稳健的监督。现有的评估器存在两难:灵活的 LLM 评判方差高,而严格的规则验证器则脆弱。我们通过**结构化口头验证(SVV)** 弥合了这一差距。我们不是要求 LLM 进行整体且主观的“判断”,而是提供一个结构化的自然语言算法(一个验证协议),并指示评判者明确地“逐步执行”该协议。这将验证者的角色从主观估计转变为结构化执行,显著降低了方差,并确保我们的奖励信号即使对于复杂的自由形式响应也保持可靠。  

我们将这些技术统一到**模态感知信用分配(MoCA)** 机制中。通过将这些细粒度的奖励路由到它们的具体来源——区别性地惩罚“差在看到”或“差在想”——我们打破了传统的“跷跷板效应”,即一种模态的增益以牺牲另一种为代价。从概念上讲,我们的方法模仿了代理式的“用图像思考”范式,但将其内化。与通过缓慢的多轮函数循环调用外部工具不同,我们的模型将其自身的感知能力视为一个内部函数,在推理之前调用它来检索视觉证据。这为感知-推理协同提供了一条轻量级、可扩展的路径,与现有的外部代理框架正交且截然不同。  

![图1:MoCA 概述。MoCA 通过分离感知和推理来区分“差在看到”和“差在想”。我们引入了感知验证(PV,上循环),它使用“蒙眼”文本推理器代理来独立于推理奖励 VLM 的感知。这与结果验证(OV,下循环)相结合,奖励更好的感知-推理协同。为实现经济的实现,我们对 PV 和 OV 使用相同的验证器。](https://arxiv.org/html/2605.14054/extracted/XXX/MoCA_overview.png)  

我们在一套全面的多模态基准上进行了广泛的实证验证。我们的结果表明,所提出的方法在从感知密集型推理到丰富模态推理的广泛任务谱系上,优于最先进的视觉-语言推理器。  

**贡献。** 我们从根本上重新思考了 VLM 训练,从整体的结果监督转向解耦的模态感知信用分配(MoCA)。  
- • 我们强制实现了感知和推理的显式架构解耦,将 VLM 从一个不透明的黑盒转变为一个可解释的模块化推理器。  
- • 我们引入了**通过代理进行感知验证**,一种新颖的“蒙眼推理”范式,通过检查仅使用模型描述的纯文本推理器能否完成任务来验证视觉保真度。  
- • 我们提出了**结构化口头验证(SVV)**,用于稳健的自由形式评估,使我们能够内化代理式“思考”的优势,而无需外部计算开销。  

## 2 方法  

我们的方法旨在将 VL 推理扩展到广泛的任务谱系。为实现这一点,我们专注于解决感知监督和结果验证问题,优化内部感知-推理协同。下面我们首先形式化问题以揭示其核心挑战,然后介绍我们的解决方案。  

### 2.1 问题形式化  

![图2:交错感知-推理的示意图。](https://arxiv.org/html/2605.14054/extracted/XXX/interleaved_fig.png)  

我们将给定图像 \(V\) 和问题 \(Q\) 生成答案 \(Y\) 的任务形式化为一个顺序决策过程。目标是学习一个单一的、可泛化的策略 \(\pi_\theta\)(VLM),该策略生成推理轨迹 \(\tau = (a_1, a_2, ..., a_T)\) 以得出正确的最终答案。这是一个(部分可观察的)马尔可夫决策过程 (POMDP) (Sondik, 1971),其中状态 \(s_t = (V, Q, a_1, ..., a_{t-1})\) 表示动作的历史。我们的核心见解是,有意识地将 VLM 的原生自回归动作空间 \(\mathcal{A}\) 分解为两个不同的、组件级别的动作集:  
- **感知动作**(\(\mathcal{A}_P\)):是以感知为中心的文本块(例如,<perception> ... </perception>),用于锚定视觉事实并从图像 \(V\) 中提取相关证据。我们专注于需要显式推理的多模态任务,并认为锚定的感知文本充当后续逻辑推理所需的离散前提。  
- **推理动作**(\(\mathcal{A}_R\)):是以推理为中心的文本块,用于理解用户请求、分解问题、形成假设、进行推理(例如,<reasoning> ... </reasoning>)。  

策略 \(\pi_\theta\) 因此是一个自回归模型 \(p(a_t \mid s_t)\),它生成这些感知和推理动作的交错序列。这种显式分解暴露了感知-推理协同的根本瓶颈:**模糊的信用分配**。这一挑战不同于在纯文本 LLM 中验证推理的标准过程监督挑战。在纯文本任务中,中间步骤可以对照文本逻辑进行验证。我们的**模态信用分配**问题是独特的:感知动作(\(a_P\))基于**视觉输入**(\(V\)),而不是文本。这使得仅仅通过查看最终答案来监督感知质量几乎不可能,因为失败可能源于有缺陷的感知(“差在看到”)或有缺陷的逻辑(“差在想”)。  

### 2.2 引出感知-推理分解  

为了直接监督 VLM 的感知,我们以交错的感知-推理格式(见图2 (https://arxiv.org/html/2605.14054#S2.F2))外部化了模型固有的感知-推理协同。为实现这一点,我们利用了现代指令调优 VLM 的指令遵循能力。我们在系统提示(图3 (https://arxiv.org/html/2605.14054#S2.F3))中向模型提供一条单一的、任务无关的指令。该指令通过将过程外部化为以感知为中心的 <perception>... 块和以推理为中心的 <reasoning>... 块,强制模型“逐步思考”。这种指令驱动的方法避免了对大规模合成轨迹数据集的需求,并允许后续的强化学习阶段从其预训练状态优化模型的原生分解能力。  

![图3:引出交错感知-推理的指令。](https://arxiv.org/html/2605.14054/extracted/XXX/instruction_prompt.png)  

### 2.3 奖励感知:“蒙眼推理器”测试  

感知现在已成为显式输出(<perception>...),我们的目标是评估其质量。核心挑战在于**不存在中间“感知思维”的真实标签**。我们不能使用静态标签。因此,我们必须从功能上衡量其质量。我们的核心洞察是,为了分配信用,我们可以将感知组件的贡献从推理过程中**隔离**出来。我们使用一个强大的纯文本推理器(例如 Qwen2.5-Instruct-14B)作为“完美推理”代理来实现这种隔离。我们的前提是,一旦视觉事实确立,大多数视觉-语言任务的推理组件比纯粹的抽象推理要简单。我们称之为“蒙眼推理器”测试:  

1. VLM 生成一个感知动作 \(a_P\)(例如,“扫描文档后,我发现相关图表显示……”)。  
2. 我们将原始问题 \(Q\) 和 VLM 生成的所有感知文本 \(\{a_P\}\) 提供给这个强大的推理器,同时**扣留图像 \(V\)**。  
3. 我们仅使用这些视觉证据从推理器获得最终答案。如果这个“图像盲”推理器成功,则集合 \(\{a_P\}\) 被证明是图像 \(V\) 相对于问题 \(Q\) 的**充分统计量**。相反,如果推理器失败,我们便将责任归咎于有缺陷的 \(\{a_P\}\) 感知锚定。这产生了我们所需的目标模态级别奖励信号 \(R_P(\tau)\)。我们称这个框架为**感知验证(PV)**。  

这种技术并非临时性的;它作为信息瓶颈(IB)原理 (Tishby et al., 2000; Alemi et al., 2016) 的功能代理。它奖励的感知块集合 \(\{a_P\}\) 既要对答案 \(Y\) 信息最大(对代理充分),又要是对图像 \(V\) 的最小(文本)表示,即 \(\min_{p(A_P|V)} I(V; A_P) - \beta I(A_P; Y)\)。为确保最小化,我们显式惩罚超过预定义令牌限制(例如 800 令牌)的感知块 \(\{a_P\}\)。  

**文本锚定的有效性。** 有人可能会质疑感知锚定的可行性,因为某些视觉模式(例如迷宫)无法简单地转换为文本。然而,在显式多模态推理(系统 2)的范围内,求解器必须提取离散的、可操作的事实(例如“迷宫中起点位于左上角,终点位于右下角,中间有若干死胡同”),然后才能进行逐步推理。这正是我们方法的适用场景。我们并非处理所有类型的感知,而是专注于那些视觉信息可以恰当且完整地表达为结构化文本推理步骤所需的前提的任务。这种限制是合理的,并且涵盖了大量的推理基准。

相似文章

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。