优中选优：超越答案正确性奖励，激励可靠的多模态推理

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究者提出 Groupwise Ranking Reward，解决多模态强化学习中的“推理-答案不一致”问题，将可靠性条件下的准确率从 47.4% 提升至 54.7%，超越标准 RLVR。

arXiv:2604.18892v1 公告类型：新摘要：可验证奖励强化学习（RLVR）通过奖励可验证的最终答案来提升多模态推理能力。然而，答案正确的轨迹仍可能依赖不完整推导、薄弱证据或与结论矛盾的陈述。我们称这种“答案对但推理错”的落差为推理-答案不一致，并由此提出在多模态 RL 中引入轨迹监督。我们比较两种主流方法：奖励模型（RM）与生成式奖励（GR）。RM 高效，在训练早期帮助大，但随着策略分布漂移，增益减弱；GR 能提升性能，却可能带来不稳定奖励且计算昂贵。为此，我们提出 Groupwise Ranking Reward：对同一提示下通过验证器的多条轨迹一次性排序，并据此重新分配奖励。组内对比以更低评判开销，更好地区分强弱正确轨迹。实验表明，RLVR 会加剧推理-答案不一致，而轨迹监督可缓解之。Groupwise Ranking Reward 整体表现最佳，将可靠性条件下的准确率从 RLVR 的 47.4% 提升至 54.7%。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:29

# 激励可信多模态推理：超越答案正确性的奖励机制  
来源：https://arxiv.org/html/2604.18892  

###### 摘要  
可验证奖励强化学习（RLVR）通过奖励可验证的最终答案来提升多模态推理能力。然而，答案正确的轨迹仍可能依赖不完整的推导、薄弱的证据，或与结论矛盾的陈述。我们把答案正确与推理有效之间的这种差距称为*推理-答案不一致*，它促使我们在多模态RL中引入轨迹监督。本文比较两种主流方法：奖励模型（RMs）与生成式奖励（GRs）。RMs高效，在训练早期有帮助，但随着策略分布偏移，收益减弱；GRs能提升性能，却可能带来不稳定奖励且计算昂贵。因此，我们提出**组内排序奖励**（Groupwise Ranking Reward）：一次性对同一提示下通过验证的轨迹进行排序，并据此重新分配奖励。组内比较以比GRs更低的评判开销，更好地区分强/弱正确轨迹。实验表明，RLVR会加剧推理-答案不一致，而轨迹监督可缓解之。组内排序奖励综合表现最佳，将RLVR的可靠性条件准确率（RC-Acc）从47.4%提升到54.7%。  

**Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness**  
Mengzhao Jia, Zhihan Zhang, Meng Jiang  
University of Notre Dame  
[email protected]  

## 1 引言  
（略，与原文结构一致，保留图表引用及公式）  

多模态大模型（MLLMs）在视觉推理任务上日益强大，RLVR成为进一步提升的标准范式。然而，仅监督最终答案时，即使答案正确，推理过程也可能变得不可靠。如图1(a)所示，推导得出X=−11，却给出最终答案10，仍会被奖励。我们称这种失效模式为**推理-答案不一致**。若放任不管，在医疗、自动驾驶、科研等高风险场景中，答案正确但推理矛盾是不可接受的。  

为此，我们系统比较两类轨迹监督：  
1. 奖励模型（RMs）：直接输出标量质量分，本文使用细粒度过程奖励模型（PRM）。  
2. 生成式奖励（GRs）：用LLM生成文字评判再转标量分。  

实验发现：RMs早期高效，后期随策略漂移收益减弱；GRs性能略好，但稳定性差、开销大。基于此，我们提出**组内排序奖励**：对同一问题通过验证的轨迹一次性排序，按相对质量重分配奖励。图1(c)突出差异：PRM与逐点评判GR独立打分，我们则联合比较，降低评判开销并更好地区分强弱正确轨迹。  

大量实验表明，组内排序奖励在各项轨迹监督方法中综合最优，RC-Acc从47.4%提升到54.7%，验证了“答案已正确，仍需优选推理”的必要性。  

## 2 相关工作  
（略，保留引用格式）  

## 3 方法  
RLVR仅区分答案对错，不区分同是正确但推理质量差异巨大的轨迹。为此，我们在同一RLVR框架内研究三种轨迹监督奖励设计：  
1. 奖励模型（RM）：标量分，实例化为PRM。  
2. 标准生成式奖励（GR）：LLM-as-a-Judge逐轨迹独立评判。  
3. 组内排序奖励：对同一提示的通过验证轨迹一次性排序，按排名重分配奖励。  

### 3.1 问题设定  
数据集D中每条样本为(x,a*)，x=(v,q)包含图像v与问题q，a*为真值答案。策略πθ生成结构化响应：推理轨迹z位于\<think\>…\</think\>，最终答案a从\(\boxed{…}\)提取。完整响应y=[z,a]称为一条rollout。基于规则的验证器给出确定性奖励  
r_ver(y)=𝟙[Verify(a,a*)=1]。  

RLVR目标：最大化E_(x,a*)~D,y~πθ[r_ver(y)]。该目标对所有通过验证的响应给相同奖励，无视推理质量差异。我们沿用GRPO优化流程：对每个提示x采样N条rollout Y={y_i=[z_i,a_i]}，在组内优化。具体优化目标见附录A。  

### 3.2 轨迹奖励变体  
在验证奖励r_ver(y_i)之外，引入辅助轨迹奖励r_aux,i。常见方案即RMs与GRs。  

##### RMs  
RMs直接输出标量质量分，无需自然语言解释。本文实例化为细粒度PRM，逐步打分…

优中选优：超越答案正确性奖励，激励可靠的多模态推理

相似文章

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

CurveRL：面向LLM推理的基于分布感知的上下文权重调整原则性方法

DeltaRubric：通过联合规划与验证实现生成式多模态奖励建模

看不清还是想不对？面向视觉语言推理的感知奖励

元认知作为奖励：通过知识与调控信号强化大语言模型推理

提交意见反馈