优中选优:超越答案正确性奖励,激励可靠的多模态推理

arXiv cs.CL 论文

摘要

研究者提出 Groupwise Ranking Reward,解决多模态强化学习中的“推理-答案不一致”问题,将可靠性条件下的准确率从 47.4% 提升至 54.7%,超越标准 RLVR。

arXiv:2604.18892v1 公告类型:新 摘要:可验证奖励强化学习(RLVR)通过奖励可验证的最终答案来提升多模态推理能力。然而,答案正确的轨迹仍可能依赖不完整推导、薄弱证据或与结论矛盾的陈述。我们称这种“答案对但推理错”的落差为推理-答案不一致,并由此提出在多模态 RL 中引入轨迹监督。我们比较两种主流方法:奖励模型(RM)与生成式奖励(GR)。RM 高效,在训练早期帮助大,但随着策略分布漂移,增益减弱;GR 能提升性能,却可能带来不稳定奖励且计算昂贵。为此,我们提出 Groupwise Ranking Reward:对同一提示下通过验证器的多条轨迹一次性排序,并据此重新分配奖励。组内对比以更低评判开销,更好地区分强弱正确轨迹。实验表明,RLVR 会加剧推理-答案不一致,而轨迹监督可缓解之。Groupwise Ranking Reward 整体表现最佳,将可靠性条件下的准确率从 RLVR 的 47.4% 提升至 54.7%。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:29

# 激励可信多模态推理:超越答案正确性的奖励机制  
来源:https://arxiv.org/html/2604.18892  

###### 摘要  
可验证奖励强化学习(RLVR)通过奖励可验证的最终答案来提升多模态推理能力。然而,答案正确的轨迹仍可能依赖不完整的推导、薄弱的证据,或与结论矛盾的陈述。我们把答案正确与推理有效之间的这种差距称为*推理-答案不一致*,它促使我们在多模态RL中引入轨迹监督。本文比较两种主流方法:奖励模型(RMs)与生成式奖励(GRs)。RMs高效,在训练早期有帮助,但随着策略分布偏移,收益减弱;GRs能提升性能,却可能带来不稳定奖励且计算昂贵。因此,我们提出**组内排序奖励**(Groupwise Ranking Reward):一次性对同一提示下通过验证的轨迹进行排序,并据此重新分配奖励。组内比较以比GRs更低的评判开销,更好地区分强/弱正确轨迹。实验表明,RLVR会加剧推理-答案不一致,而轨迹监督可缓解之。组内排序奖励综合表现最佳,将RLVR的可靠性条件准确率(RC-Acc)从47.4%提升到54.7%。  

**Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness**  
Mengzhao Jia, Zhihan Zhang, Meng Jiang  
University of Notre Dame  
[email protected]  

## 1 引言  
(略,与原文结构一致,保留图表引用及公式)  

多模态大模型(MLLMs)在视觉推理任务上日益强大,RLVR成为进一步提升的标准范式。然而,仅监督最终答案时,即使答案正确,推理过程也可能变得不可靠。如图1(a)所示,推导得出X=−11,却给出最终答案10,仍会被奖励。我们称这种失效模式为**推理-答案不一致**。若放任不管,在医疗、自动驾驶、科研等高风险场景中,答案正确但推理矛盾是不可接受的。  

为此,我们系统比较两类轨迹监督:  
1. 奖励模型(RMs):直接输出标量质量分,本文使用细粒度过程奖励模型(PRM)。  
2. 生成式奖励(GRs):用LLM生成文字评判再转标量分。  

实验发现:RMs早期高效,后期随策略漂移收益减弱;GRs性能略好,但稳定性差、开销大。基于此,我们提出**组内排序奖励**:对同一问题通过验证的轨迹一次性排序,按相对质量重分配奖励。图1(c)突出差异:PRM与逐点评判GR独立打分,我们则联合比较,降低评判开销并更好地区分强弱正确轨迹。  

大量实验表明,组内排序奖励在各项轨迹监督方法中综合最优,RC-Acc从47.4%提升到54.7%,验证了“答案已正确,仍需优选推理”的必要性。  

## 2 相关工作  
(略,保留引用格式)  

## 3 方法  
RLVR仅区分答案对错,不区分同是正确但推理质量差异巨大的轨迹。为此,我们在同一RLVR框架内研究三种轨迹监督奖励设计:  
1. 奖励模型(RM):标量分,实例化为PRM。  
2. 标准生成式奖励(GR):LLM-as-a-Judge逐轨迹独立评判。  
3. 组内排序奖励:对同一提示的通过验证轨迹一次性排序,按排名重分配奖励。  

### 3.1 问题设定  
数据集D中每条样本为(x,a*),x=(v,q)包含图像v与问题q,a*为真值答案。策略πθ生成结构化响应:推理轨迹z位于\<think\>…\</think\>,最终答案a从\(\boxed{…}\)提取。完整响应y=[z,a]称为一条rollout。基于规则的验证器给出确定性奖励  
r_ver(y)=𝟙[Verify(a,a*)=1]。  

RLVR目标:最大化E_(x,a*)~D,y~πθ[r_ver(y)]。该目标对所有通过验证的响应给相同奖励,无视推理质量差异。我们沿用GRPO优化流程:对每个提示x采样N条rollout Y={y_i=[z_i,a_i]},在组内优化。具体优化目标见附录A。  

### 3.2 轨迹奖励变体  
在验证奖励r_ver(y_i)之外,引入辅助轨迹奖励r_aux,i。常见方案即RMs与GRs。  

##### RMs  
RMs直接输出标量质量分,无需自然语言解释。本文实例化为细粒度PRM,逐步打分…

相似文章