通过最差维度优化改进多模态推理

arXiv cs.AI 2026/06/09 04:00 论文

摘要

本文提出了多模态多维度标量化过程奖励建模（MMS-PRM），该方法在多模态推理中强制最差维度的鲁棒性，以防止视觉幻觉等失败被强大的文本逻辑掩盖。

arXiv:2606.07801v1 公告类型：新摘要：多模态推理需要一条在从视觉基础到逻辑一致性等广泛约束下保持完整性的路径。然而，当前的流程奖励模型侧重于启发式定义的奖励，这些奖励同等加权这些因素，可能导致个别维度失败被主导因素掩盖，从而无法保证推理过程整体的有效性。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:53

# 通过最差维度优化改进多模态推理
来源: https://arxiv.org/html/2606.07801
Huaping Zhang, Qiuchi Li, Lei Li & Chunxiao Gao 北京理工大学 \{3120255822, kevinzhang, liqiuchi, lilei, gao\_chunxiao\}@bit\.edu\.cn 通讯作者。

###### 摘要

多模态推理需要的路径必须能在从视觉基础到逻辑一致性等一系列约束下保持完整性。然而，当前的过程奖励模型（PRM）侧重于启发式定义的奖励，这些奖励平均对待各个因素，可能导致主导因素掩盖个别维度的失败（例如视觉幻觉），从而无法保证推理过程整体的有效性。因此，为了克服这一限制，本文提出了多模态多维度标量化过程奖励建模（MMS-PRM）的概念，这是一种专门开发用于强制执行多模态推理中最差维度鲁棒性的范式。具体来说，我们构建了一个层次化的细粒度奖励空间来表示推理任务中的多模态风险，并引入了一种基于切比雪夫的蒙特卡洛树搜索（MCTS）算法，在路径搜索过程中，主要关注表现最差的维度。此外，我们开发了一种基于课程的直接偏好优化（DPO）方法，以逐步在策略中学习平衡的推理技能。实验结果表明，在没有维度坍塌问题的情况下，MMS-PRM方法显著提高了多模态推理性能的可靠性，并在各种具有挑战性的任务上取得了有竞争力的结果。代码可在 https://github.com/leibniz-Man/MMS-PRM 获取。

## 1 引言

参见图注
图1：现有方法与我们的方法之间的比较。多模态大语言模型（MLLM）在复杂推理任务（如数学图表和科学图形）中表现出色。与纯文本推理任务不同，多模态推理需要同时满足多个约束，包括视觉基础和逻辑正确性，其中任何一个方面的违反都会使整个推理轨迹无效。

为了监督此类过程，先前的工作引入了提供步骤级反馈的过程奖励模型（PRM）。然而，现有的 PRM（Wang 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib47); Luo 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib48); Ong 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib49); Gao 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib50)）通常将多个质量维度折叠成一个单一的标量奖励。这使得某些因素的良好表现可能补偿其他因素的较差表现，从而导致错误的推理路径被强化。

由补偿机制引起的问题在多模态推理任务中更为严重。如图1所示，推理过程可能具有一个数学上组织良好的推理链，但却使用了幻觉性的视觉关系。由于文本逻辑组织良好，标量 PRM 通常会为推理过程分配较高的置信度分数，而不会因事实错误惩罚推理过程。这种失败表明，当前平均化设计奖励的方法存在严重缺陷。

这些发现引出了本文的主要原则：*一个活跃的多模态推理轨迹的完整性不是由平均质量衡量，而是由最差的活跃维度衡量。* 一个有效但在图像中缺乏基础的活跃推理步骤本质上就是无效的，不应被强化。因此，成功的多模态对齐应从优化期望最大化奖励转向非补偿性目标，即惩罚最差维度的退化。

为了实现这一原则，我们提出了 MMS-PRM，一种用于多模态推理的搜索增强型多维度过程奖励框架。我们将多模态过程奖励重新表述为一个多目标轨迹优化问题，其中每个推理步骤以及整个推理轨迹的质量由其最弱的相关维度决定，而不是由聚合分数决定。首先，我们构建了一个层次化的细粒度奖励空间，将多模态推理质量分解为可解释的维度和子维度，允许根据不断演变的推理上下文动态激活奖励。其次，我们引入了一种切比雪夫引导的蒙特卡洛树搜索（MCTS），在轨迹探索中明确优先考虑表现最差的奖励维度，防止跨冲突标准的补偿，并促进平衡的推理路径。最后，我们整合了一种课程式的直接偏好优化（DPO）策略，利用我们获得的平衡推理轨迹逐步训练 MLLM，从短的高置信度轨迹到长距离多模态推理链。

通过这个闭环框架，MMS-PRM 在步骤和轨迹层面强制实现了视觉基础、逻辑连贯性和语义正确性之间的平衡。在多样且具有挑战性的多模态推理基准上的广泛实验表明，MMS-PRM 显著提高了推理的可靠性和鲁棒性，特别是在长距离和视觉要求高的任务上。

本文的贡献如下：

- • 我们识别了多模态推理中标量过程奖励的一个根本局限性，并将过程奖励建模重新表述为一个非补偿性的多维度轨迹优化问题。
- • 我们提出了一个最差维度感知的搜索框架，结合了层次化过程奖励和切比雪夫标量化的 MCTS，以强制实现平衡的多模态推理。
- • 我们引入了一种基于课程的偏好对齐策略，有效地将搜索发现的推理行为转移到模型中，在多个基准上实现了强大的性能和泛化能力。

## 2 相关工作

**VLM 推理。** 随着 VLM 越来越多地用于数学和科学领域的复杂任务（Yue 等人，2024 (https://arxiv.org/html/2606.07801#bib.bib9); Yao 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib55); Chen 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib64); Yan 等人，2024 (https://arxiv.org/html/2606.07801#bib.bib63); Zhang 等人，2026 (https://arxiv.org/html/2606.07801#bib.bib62); Guan 等人，2025b (https://arxiv.org/html/2606.07801#bib.bib61); Liu 等人，2024c (https://arxiv.org/html/2606.07801#bib.bib60)），提高其推理能力的需求变得至关重要。先前的研究将视觉区域与推理步骤对齐（Shao 等人，2024 (https://arxiv.org/html/2606.07801#bib.bib46); Yan 等人，2026 (https://arxiv.org/html/2606.07801#bib.bib59); Jia 等人，2026 (https://arxiv.org/html/2606.07801#bib.bib58); Cai 等人，2025b (https://arxiv.org/html/2606.07801#bib.bib57),a (https://arxiv.org/html/2606.07801#bib.bib56)），或通过多智能体框架分解长链推理（Dong 等人，2025b (https://arxiv.org/html/2606.07801#bib.bib14); Shi 等人，2026 (https://arxiv.org/html/2606.07801#bib.bib53); Li 等人，2026 (https://arxiv.org/html/2606.07801#bib.bib52),2025 (https://arxiv.org/html/2606.07801#bib.bib54); Li 2024 (https://arxiv.org/html/2606.07801#bib.bib51)）。这些进展证明了建模中间推理步骤的重要性（Zhang 等人，2025b (https://arxiv.org/html/2606.07801#bib.bib15)）。然而，大多数先前的研究使用粗粒度的推理监督（Li 等人，2024 (https://arxiv.org/html/2606.07801#bib.bib16); Shao 等人，2024 (https://arxiv.org/html/2606.07801#bib.bib46); Li 2024 (https://arxiv.org/html/2606.07801#bib.bib51)）。相比之下，我们的工作引入了一种细粒度的结构化推理范式，以更精确地增强 VLM 推理。

**过程奖励模型。** 随着 LLM 处理更复杂的任务，需要在更长的轨迹上进行推理，这使得使用结果奖励模型（ORM）来检查推理的连贯性和正确性变得不足（Snell 等人，2024 (https://arxiv.org/html/2606.07801#bib.bib18); Luo 等人，2024 (https://arxiv.org/html/2606.07801#bib.bib19); Cai 等人，2025a (https://arxiv.org/html/2606.07801#bib.bib56)）。早期的 PRM 工作侧重于数学等客观领域，其中中间步骤具有明确的正确性标准，无论是通过对步骤级正确性直接建模（Wang 等人，2024a (https://arxiv.org/html/2606.07801#bib.bib24)）还是估计其可能性（Wang 等人，2024d (https://arxiv.org/html/2606.07801#bib.bib25); Guan 等人，2025a (https://arxiv.org/html/2606.07801#bib.bib20)）。最近的研究将 PRM 扩展到多模态推理。VisualPRM（Wang 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib47)）通过步骤级奖励将中间推理与视觉证据对齐，URSA（Luo 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib48)）通过强化学习将过程监督整合到策略学习中，而 VL-PRM300K（Ong 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib49)）和 SVIP（Gao 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib50)）则利用大规模标注数据集和视觉编程实现了详细的多模态监督。当前多模态 PRM 的最先进技术基于标量化奖励，这可能会隐藏重要的维度。为了解决这个问题，我们引入了 MMS-PRM，它在多维度奖励空间中表示多模态过程级监督，以更准确地捕捉推理质量。

**LLM 中的树搜索。** 树结构在语言模型中显示出显著的潜力（Qi 等人，2025 (https://arxiv.org/html/2606.07801#bib.bib4); Wu 等人，2024 (https://arxiv.org/html/2606.07801#bib.bib5)）。最近的努力探索将这些树搜索方法应用于为 MLLM 识别有效推理路径。AR-MCTS（Dong 等人，2025a (https://arxiv.org/html/2606.07801#bib.bib6)）通过将 MCTS 与主动检索结合增强了多模态推理，但其高计算开销和大量迭代限制了其实用性。类似地，Mulberry（Yao 等人，2026 (https://arxiv.org/html/2606.07801#bib.bib7)）通过来自强大模型（如 GPT-4o）的树结构蒸馏出 260K 长链推理样本，但严重依赖于资源密集型教师模型。

## 3 方法

多模态推理与纯文本推理的不同之处在于，模型必须保持每个中间步骤在视觉上有根据、逻辑上连贯，并最终得到正确答案。这需要监督单步质量和从步骤到完整轨迹的动态过程。简单的最终答案监督可能会忽略中间推理错误，而仅进行步骤级监督可能会产生局部合理的步骤，但这些步骤无法组合成全局有效的推理链。为了解决这个问题，我们构建了一个由三部分组成的闭环对齐框架：(1) 一个层次化的细粒度奖励空间，通过多维度奖励在单步级别建模多模态推理质量；(2) 一个奖励引导的切比雪夫 MCTS，动态搜索平衡所有激活奖励维度的轨迹；(3) 一个课程式 DPO，逐步将 MLLM 策略从简单/短链对齐到困难/长链。整个流程如图2 (https://arxiv.org/html/2606.07801#S3.F2) 所示。

参见图注
图2：MMS-PRM 概述。该框架包含三个组件：(a) 一个层次化的细粒度奖励空间，将多模态推理质量分解为可解释的维度并分配步骤级奖励；(b) 一个切比雪夫引导的蒙特卡洛树搜索（MCTS），通过明确优先考虑表现最差的维度来探索推理轨迹；(c) 一种课程式直接偏好优化（DPO），将搜索发现的平衡推理行为迁移到策略中。这些组件共同形成了一个闭环过程，强制实现非补偿性的、平衡的多模态推理。

### 3.1 层次化细粒度奖励空间

第一个组件将原始模型输出转化为可重用的结构化奖励维度。

##### 候选准则生成。

对于训练集中的每个实例，我们根据推理步骤推导出准则。给定输入 \(x\) 和模型采样产生的推理序列 \(\hat{y}\)，我们应用一个自动分析器 \(J(\cdot)\)，通常实例化为一个视觉-语言模型，提取最多 5 个相关准则：

\(J(x, \hat{y}) = \{c_1, c_2, \dots\}\)， (1)

这些准则评估推理质量，涉及各种因素，如视觉对齐、语义正确性、逻辑一致性、步骤连贯性和简洁性。

##### 嵌入与聚类。

收集到的准则被嵌入到一个 \(d\) 维向量空间中：

\(V(c_i) = [v_i^{(1)}, \dots, v_i^{(d)}]\)， (2)

其中 \(d\) 是嵌入维度。执行层次聚类以将相似准则分组，当准则之间的相似度低于某个阈值 \(\xi\) 时停止。这产生了一个层次化奖励结构 \(\mathcal{H} = \{\mathcal{H}_1, \mathcal{H}_2, \dots\}\)，其中较高层次是宽泛的（例如，“视觉上有根据”），较低层次更具体（例如，“准确引用 #3 柱状图”）。

##### 逐步奖励分配。

奖励分配的动态过程使用一个奖励树 \(T\) 来分配逐步奖励信号。对于 \(n\) 步推理轨迹 \(\hat{y} = \{\hat{y}(1), \hat{y}(2), \dots, \hat{y}(n)\}\) 中的每一步 \(\hat{y}(t)\)，相应的奖励被动态分配。

具体来说，对于第 \(t\) 步 \(\hat{y}(t)\)，一个选择函数首先从奖励树 \(T\) 的顶层选择一个粗粒度的父奖励节点 \(r_{\text{parent}}\)，代表该步骤要评估的主要风险维度。基于 \(\hat{y}(t)\) 和 \(r_{\text{parent}}\)，一个分析函数 \(\Phi\) 确定是否需要更细粒度的评估，如果需要，则生成一组候选文本评估准则：

\(\mathcal{C}_t = \Phi(\hat{y}(t), r_{\text{parent}}), \quad \mathcal{C}_t = \{c_t^1, c_t^2, \dots, c_t^{K_t}\}\)。 (3)

每个准则 \(c_t^i \in \mathcal{C}_t\) 使用嵌入函数 \(V(\cdot)\) 被嵌入到 \(d\) 维语义空间中。为了过滤掉与所选父奖励弱相关或语义漂移的准则，我们计算每个准则嵌入与父奖励嵌入之间的余弦距离：

\(\delta_i^t = D\bigl(V(c_t^i), V(r_{\text{parent}})\bigr)\)， (4)

其中 \(D(\cdot)\) 表示余弦距离。

这种基于距离的过滤作为一种启发式保护，而不是严格的语义蕴含测试，旨在去除与预期风险维度松散相关的候选准则，或将焦点从核心评估目标移开的准则。因此，第 \(t\) 步的激活奖励节点集定义为：

\(R_t = \{r_t^i \mid c_t^i \in \mathcal{C}_t, \delta_i^t \leq \zeta\}\)，