优中选优:超越答案正确性奖励,激励可靠的多模态推理
摘要
研究者提出 Groupwise Ranking Reward,解决多模态强化学习中的“推理-答案不一致”问题,将可靠性条件下的准确率从 47.4% 提升至 54.7%,超越标准 RLVR。
arXiv:2604.18892v1 公告类型:新
摘要:可验证奖励强化学习(RLVR)通过奖励可验证的最终答案来提升多模态推理能力。然而,答案正确的轨迹仍可能依赖不完整推导、薄弱证据或与结论矛盾的陈述。我们称这种“答案对但推理错”的落差为推理-答案不一致,并由此提出在多模态 RL 中引入轨迹监督。我们比较两种主流方法:奖励模型(RM)与生成式奖励(GR)。RM 高效,在训练早期帮助大,但随着策略分布漂移,增益减弱;GR 能提升性能,却可能带来不稳定奖励且计算昂贵。为此,我们提出 Groupwise Ranking Reward:对同一提示下通过验证器的多条轨迹一次性排序,并据此重新分配奖励。组内对比以更低评判开销,更好地区分强弱正确轨迹。实验表明,RLVR 会加剧推理-答案不一致,而轨迹监督可缓解之。Groupwise Ranking Reward 整体表现最佳,将可靠性条件下的准确率从 RLVR 的 47.4% 提升至 54.7%。
查看缓存全文
缓存时间: 2026/04/22 08:29
# 激励可信多模态推理:超越答案正确性的奖励机制 来源:https://arxiv.org/html/2604.18892 ###### 摘要 可验证奖励强化学习(RLVR)通过奖励可验证的最终答案来提升多模态推理能力。然而,答案正确的轨迹仍可能依赖不完整的推导、薄弱的证据,或与结论矛盾的陈述。我们把答案正确与推理有效之间的这种差距称为*推理-答案不一致*,它促使我们在多模态RL中引入轨迹监督。本文比较两种主流方法:奖励模型(RMs)与生成式奖励(GRs)。RMs高效,在训练早期有帮助,但随着策略分布偏移,收益减弱;GRs能提升性能,却可能带来不稳定奖励且计算昂贵。因此,我们提出**组内排序奖励**(Groupwise Ranking Reward):一次性对同一提示下通过验证的轨迹进行排序,并据此重新分配奖励。组内比较以比GRs更低的评判开销,更好地区分强/弱正确轨迹。实验表明,RLVR会加剧推理-答案不一致,而轨迹监督可缓解之。组内排序奖励综合表现最佳,将RLVR的可靠性条件准确率(RC-Acc)从47.4%提升到54.7%。 **Prioritizing the Best: Incentivizing Reliable Multimodal Reasoning by Rewarding Beyond Answer Correctness** Mengzhao Jia, Zhihan Zhang, Meng Jiang University of Notre Dame [email protected] ## 1 引言 (略,与原文结构一致,保留图表引用及公式) 多模态大模型(MLLMs)在视觉推理任务上日益强大,RLVR成为进一步提升的标准范式。然而,仅监督最终答案时,即使答案正确,推理过程也可能变得不可靠。如图1(a)所示,推导得出X=−11,却给出最终答案10,仍会被奖励。我们称这种失效模式为**推理-答案不一致**。若放任不管,在医疗、自动驾驶、科研等高风险场景中,答案正确但推理矛盾是不可接受的。 为此,我们系统比较两类轨迹监督: 1. 奖励模型(RMs):直接输出标量质量分,本文使用细粒度过程奖励模型(PRM)。 2. 生成式奖励(GRs):用LLM生成文字评判再转标量分。 实验发现:RMs早期高效,后期随策略漂移收益减弱;GRs性能略好,但稳定性差、开销大。基于此,我们提出**组内排序奖励**:对同一问题通过验证的轨迹一次性排序,按相对质量重分配奖励。图1(c)突出差异:PRM与逐点评判GR独立打分,我们则联合比较,降低评判开销并更好地区分强弱正确轨迹。 大量实验表明,组内排序奖励在各项轨迹监督方法中综合最优,RC-Acc从47.4%提升到54.7%,验证了“答案已正确,仍需优选推理”的必要性。 ## 2 相关工作 (略,保留引用格式) ## 3 方法 RLVR仅区分答案对错,不区分同是正确但推理质量差异巨大的轨迹。为此,我们在同一RLVR框架内研究三种轨迹监督奖励设计: 1. 奖励模型(RM):标量分,实例化为PRM。 2. 标准生成式奖励(GR):LLM-as-a-Judge逐轨迹独立评判。 3. 组内排序奖励:对同一提示的通过验证轨迹一次性排序,按排名重分配奖励。 ### 3.1 问题设定 数据集D中每条样本为(x,a*),x=(v,q)包含图像v与问题q,a*为真值答案。策略πθ生成结构化响应:推理轨迹z位于\<think\>…\</think\>,最终答案a从\(\boxed{…}\)提取。完整响应y=[z,a]称为一条rollout。基于规则的验证器给出确定性奖励 r_ver(y)=𝟙[Verify(a,a*)=1]。 RLVR目标:最大化E_(x,a*)~D,y~πθ[r_ver(y)]。该目标对所有通过验证的响应给相同奖励,无视推理质量差异。我们沿用GRPO优化流程:对每个提示x采样N条rollout Y={y_i=[z_i,a_i]},在组内优化。具体优化目标见附录A。 ### 3.2 轨迹奖励变体 在验证奖励r_ver(y_i)之外,引入辅助轨迹奖励r_aux,i。常见方案即RMs与GRs。 ##### RMs RMs直接输出标量质量分,无需自然语言解释。本文实例化为细粒度PRM,逐步打分…
相似文章
CORA:通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距
本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。
CurveRL:面向LLM推理的基于分布感知的上下文权重调整原则性方法
本文介绍了CurveRL,一种基于原则的分布感知提示权重调整方法,用于带有可验证奖励的强化学习(RLVR),通过基于通过率的排名和密度而非绝对值来分配权重,从而改进LLM推理,持续优于GRPO及其他基线方法。
DeltaRubric:通过联合规划与验证实现生成式多模态奖励建模
DeltaRubric 是一篇研究论文,介绍了一种使用单一多模态大语言模型(MLLM)的两步多模态偏好评估方法,通过联合规划与验证来提高奖励建模的可靠性。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
元认知作为奖励:通过知识与调控信号强化大语言模型推理
介绍了元认知即奖励(MaR),一个基于元认知知识与调控信号指导大语言模型推理的强化学习框架,在推理基准上相比基准方法最高提升11%。