CORA:通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

arXiv cs.CL 论文

摘要

本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。

arXiv:2606.14691v1 公告类型:新 摘要:基于可验证奖励的强化学习(RLVR)已成功激发了大型语言模型的推理能力,从而推动其向多模态场景扩展。现有方法主要致力于提升推理轨迹的视觉覆盖并减轻视觉幻觉,但低估了推理过程与最终答案之间的语义不一致性。本文深入探究了大型视觉语言模型(LVLMs)在RLVR中的思考-答案不一致性,通过对群体相对策略优化(GRPO)训练过程中收集的滚动数据以及RLVR后评估输出的全面分析,表明该问题在训练期间持续存在,并在推理时仍然显现。基于此分析,我们提出了一致性导向推理对齐(CORA),通过轻量级即插即用的一致性奖励模型将思考-答案语义一致性引入RLVR,并进一步结合混合奖励优势拆分(HRAS)以稳定协调任务与一致性优化。在代表性多模态推理基准和主流LVLMs上的大量实验表明,CORA在提升任务性能的同时有效缓解了思考-答案不一致性,从而产生更可靠的推理轨迹。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:59

# CORA: 基于一致性导向推理对齐的多模态RLVR思考-答案鸿沟分析与桥接

**来源:** https://arxiv.org/html/2606.14691

蔡佳悦1*,陆之聪1*,孙雪涵2,贾伟1†,郑鸿玲2,田长源1,林子川3,吕文倩1,刘娜宇4

1中国科学院大学 2武汉大学 3清华大学 4天津大学

###### 摘要

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成功激发了大语言模型的推理能力,推动其向多模态场景扩展。现有方法主要聚焦于改进推理轨迹的视觉覆盖范围和缓解视觉幻觉,但低估了推理过程与最终答案之间的语义不一致性。本文深入研究了大型视觉语言模型(LVLMs)RLVR中的思考-答案不一致问题,通过对Group Relative Policy Optimization(GRPO)训练过程中收集的rollout数据以及RLVR后评估输出进行全面分析,表明该问题在训练期间持续存在,并在推理阶段依然存在。基于此分析,我们提出**一致性导向推理对齐**(Consistency-Oriented Reasoning Alignment, CORA),通过一个轻量级即插即用的一致性奖励模型将思考-答案语义一致性引入RLVR,并进一步结合混合奖励优势拆分(Hybrid Reward Advantage Splitting, HRAS)以稳定协调任务与一致性优化。在代表性多模态推理基准和主流LVLMs上的大量实验表明,CORA在提升任务性能的同时有效缓解了思考-答案不一致问题,从而产生更可信的推理轨迹。

CORA:基于一致性导向推理对齐的多模态RLVR思考-答案鸿沟分析与桥接

蔡佳悦1*,陆之聪1*,孙雪涵2,贾伟1†,郑鸿玲2,田长源1,林子川3,吕文倩1,刘娜宇4

1中国科学院大学 2武汉大学 3清华大学 4天津大学

11脚注:同等贡献。22脚注:通讯作者。

## 1 引言

基于可验证奖励的强化学习(RLVR)近期在增强大语言模型推理能力方面展现出显著效果(Guo等人,2025(https://arxiv.org/html/2606.14691#bib.bib1);Chen等人,2026(https://arxiv.org/html/2606.14691#bib.bib20);Jia等人,2025(https://arxiv.org/html/2606.14691#bib.bib33);Diao等人,2026(https://arxiv.org/html/2606.14691#bib.bib38);Lu等人,2025(https://arxiv.org/html/2606.14691#bib.bib34))。基于此成功,越来越多的工作致力于将RLVR扩展到大型视觉语言模型(LVLMs),旨在增强其执行复杂多模态推理的能力(Liu等人,2025(https://arxiv.org/html/2606.14691#bib.bib5);Huang等人,2025b(https://arxiv.org/html/2606.14691#bib.bib2);Feng等人,2026(https://arxiv.org/html/2606.14691#bib.bib3))。

参见图注

图1:多模态RLVR中的思考-答案不一致性问题。现有工作通常将最终答案正确性作为准确性奖励,低估了推理轨迹与最终答案之间潜在的不一致性。我们的方法引入一致性奖励,鼓励模型从可信的推理轨迹中推导出最终答案。

遵循在最终答案前生成显式推理轨迹的标准RLVR范式,先前方法(Man等人,2025(https://arxiv.org/html/2606.14691#bib.bib9);Li等人,2026(https://arxiv.org/html/2606.14691#bib.bib10))主要聚焦于提升推理轨迹的视觉覆盖率和减少幻觉。然而,它们依赖于一个基本假设:推理轨迹有助于产生可信的最终答案,这在答案级奖励下可能很脆弱,即推理与答案可能尽管答案正确却发生偏离。同期工作(Chen等人,2025(https://arxiv.org/html/2606.14691#bib.bib27);Huang等人,2025a(https://arxiv.org/html/2606.14691#bib.bib14))要么在特定任务设置中启发式地认识到这种推理-答案不匹配,要么依赖成本高昂的辅助奖励机制,导致在训练过程中这种不一致性的动态演变尚未得到充分探索。为深入研究此问题,我们对Group Relative Policy Optimization(GRPO)(Shao等人,2024(https://arxiv.org/html/2606.14691#bib.bib30);Lu等人,2026(https://arxiv.org/html/2606.14691#bib.bib35))训练和评估期间的on-policy rollout进行实证分析。具体而言,我们分析了训练过程中多种主流开源LVLMs(Wang等人,2024b(https://arxiv.org/html/2606.14691#bib.bib28);Bai等人,2025(https://arxiv.org/html/2606.14691#bib.bib29))的不同规模,从而追踪RLVR期间思考-答案不一致性的动态演变。为确保分析的全面性,我们选取多模态推理中的常见场景(Ray等人,2024(https://arxiv.org/html/2606.14691#bib.bib15);Shi等人,2024(https://arxiv.org/html/2606.14691#bib.bib17);Lu等人,2024a(https://arxiv.org/html/2606.14691#bib.bib19);Ghosal等人,2025(https://arxiv.org/html/2606.14691#bib.bib22)),包括空间推理、多模态数学推理和谜题推理。我们观察到,思考-答案不一致性并非仅由少量异常案例引起,而是在GRPO训练的RLVR中广泛出现。此外,该问题在整个训练动态过程中持续存在,并非随RLVR训练推进而自然缓解。同时,标准GRPO不足以随训练推进可靠地缓解此问题。即使在RLVR之后,模型在评估期间仍可能产生无法支持最终答案甚至与之语义矛盾的推理轨迹。我们将此问题归因于答案级奖励设计,该设计仅监督最终答案,可能导致模型学习获得正确答案的捷径,而非从生成的推理轨迹中推导出答案。

受上述评估观察和分析启发,我们提出**一致性导向推理对齐**(Consistency-Oriented Reasoning Alignment, CORA),该方法在RLVR过程中显式规范思考过程与答案之间的语义一致性。具体来说,我们引入一个轻量级即插即用的一致性奖励模型(Consistency Reward Model, CRM),以自然语言推理(Natural Language Inference, NLI)风格的判别方式对思考-答案一致性进行评分,并将此信号作为额外奖励纳入GRPO。此外,为恰当整合连续一致性奖励,同时避免与原始离散准确性奖励在分组归一化下产生冲突,我们提出混合奖励优势拆分(Hybrid Reward Advantage Splitting, HRAS),这是一种奖励解耦的优势估计策略,通过分别进行分组归一化和加权优势组合来保留任务奖励和一致性奖励的独特偏好信号。为验证我们方法的有效性和泛化性,我们在主流LVLMs的多模态推理基准的三个场景上进行了广泛实验。与使用标准GRPO的RLVR相比,我们的方法实现了更强的性能,并有效缓解了思考与答案之间的语义不一致性,进一步证明了其有效性和泛化能力。

总体而言,我们的贡献总结如下:1)我们对多模态推理RLVR中的思考-答案不一致性进行了深入分析,表明该问题在GRPO训练期间持续存在,且在RLVR后评估中不会自然缓解。2)我们提出CORA,一种面向一致性的RLVR方法,引入轻量级即插即用的一致性奖励模型来增强思考-答案语义一致性,并结合HRAS实现任务奖励与一致性奖励的稳定联合优化。3)在多个代表性多模态推理基准上的大量实验表明,CORA在有效缓解思考-答案不一致性的同时,持续提升了主流LVLMs的性能。代码将很快发布,以促进未来RLVR在多模态推理中的研究。

## 2 RLVR中的思考-答案不一致性

在本节中,我们首先定义一个二元一致性度量,用于评估基于RLVR的训练和推理过程中思考与答案之间的一致性程度。然后,我们进行一系列探索性实验(Lu等人,2024b(https://arxiv.org/html/2606.14691#bib.bib37)),以验证以答案正确性作为奖励训练的LVLMs是否在其思考过程与最终答案之间表现出不一致性。最后,我们总结定量发现并提供此问题的定性分析。

### 2.1 思考-答案一致性度量

给定一个问题q,在`<think>`标签内的推理过程t,以及在`<answer>`标签内的最终答案a,我们将思考-答案一致性定义为二元判断。如果思考t在语义上支持或导向答案a,则样本标记为**一致**;否则,标记为**不一致**。不一致的情况包括:(1)思考过程隐含的答案与最终答案矛盾;(2)推理过程未能为最终答案提供实质性证据。

我们使用不一致率(Inconsistency Rate, IR)来量化训练和推理过程中思考-答案不一致的程度。

IR = N_incons / N_valid, (1)

其中N_incons表示标记为不一致的样本数,N_valid表示可提取并评估其思考和答案的有效样本总数。

为探究在基于RLVR的训练和推理过程中生成的思考是否可靠地支持最终答案,我们进行以下探索性实验。

### 2.2 实证分析

参见图注

图2:不一致样本中思考-答案准确率与不一致率的比较。(a)训练期间的现象。(b)评估基准上的现象。

**数据。** 我们聚焦三个代表性多模态推理任务:视觉感知(包括分类和空间定位)、多模态数学推理和视觉谜题推理。对于视觉感知,我们在SAT数据集(Ray等人,2024(https://arxiv.org/html/2606.14691#bib.bib15))上训练,在CVBench数据集(Tong等人,2024(https://arxiv.org/html/2606.14691#bib.bib16))上评估。对于多模态数学推理,我们在Math-40K(Shi等人,2024(https://arxiv.org/html/2606.14691#bib.bib17))上训练,在MathVision(Wang等人,2024a(https://arxiv.org/html/2606.14691#bib.bib18))和MathVista(Lu等人,2024a(https://arxiv.org/html/2606.14691#bib.bib19))上评估。对于视觉谜题推理,我们遵循Li等人(2026(https://arxiv.org/html/2606.14691#bib.bib6))的设置,使用Chia等人(2024(https://arxiv.org/html/2606.14691#bib.bib21))发布的生成代码构建了6.5K样本的PuzzleVQA训练集。评估时,我们使用PuzzleVQA作为域内测试集,AlgoPuzzleVQA(Ghosal等人,2025(https://arxiv.org/html/2606.14691#bib.bib22))作为域外测试集。

**实验设置。** 为探究多模态推理中思考与答案是否保持一致,我们在标准RLVR设置下进行初步研究。我们在上述三个代表性多模态推理任务上训练四种Qwen系列LVLMs,使用格式合规性和答案正确性作为奖励信号。实验细节与主要实验保持一致,详见第4.1节(https://arxiv.org/html/2606.14691#S4.SS1)。训练后,我们构建两个用于一致性分析的语料库。对于训练阶段语料库,选取每次训练运行的早期、中期和晚期模型状态,用于在相应训练提示下生成响应。然后从每个响应中提取思考和答案内容,得到包含约719K有效样本的训练阶段思考-答案语料库。对于评估阶段语料库,使用每次训练运行的最终训练模型在评估基准上生成响应,并以相同方式提取对应的思考-答案对。为标注语料库中的样本级一致性,我们设计了一个专用判断提示,详见附录D(https://arxiv.org/html/2606.14691#A4)。该提示指示评判模型对每个响应执行三个步骤:(1)从`<think>`标签内的推理轨迹中提取最终结论;(2)从`<answer>`标签中提取最终答案;(3)确定思考过程与最终答案是否指向相同的语义答案。标注规则如下:若思考过程的结论与最终答案语义等价,则一致性标签为“是”;若指向不同的值,则标签为“否”;若推理过程或最终答案不包含可提取的答案,则标签为“无”。第一种情况视为一致,后两种视为不一致。在所有数据集上采用统一的标注模板,并提供数据集特定的少样本示例以适应不同任务格式。标注过程中,使用GPT-5(OpenAI, 2025(https://arxiv.org/html/2606.14691#bib.bib26))作为评判模型。基于这些标注,我们量化了RLVR训练和最终推理期间思考过程与最终答案是否保持一致,以及不一致发生时的程度。

参见图注

图3:CORA概述。我们从训练阶段语料库构建一个NLI风格的一致性判别数据集,用于训练基于ModernBERT的CRM。在GRPO过程中,CRM为每个生成的<think>-<answer>对提供一致性奖励。CORA将任务奖励和一致性奖励分别归一化为拆分优势,并结合它们进行策略优化。

### 2.3 定量结果与分析

图2(https://arxiv.org/html/2606.14691#S2.F2)比较了训练和评估期间的思考-答案不一致性。结果表明,在LVLM行为的两个阶段均存在不一致性,且这不是偶然的失败案例,而是跨模型和视觉推理任务的普遍现象。不一致率与任务相关:在视觉感知任务中较低,因为答案通常可直接从视觉证据中推断;但在多模态数学推理和视觉谜题推理任务中较高,因为这些任务需要更深入的计算和多步推理。此外,不一致性在整个训练过程中持续存在,并常随训练推进而变得更明显。同一问题进一步出现在评估基准上。最后,在不一致样本中,最终答案通常比推理隐含的答案更正确。这表明当前的RLVR训练主要优化答案正确性,而思考过程缺乏监督。

## 3 方法

在本节中,我们提出CORA方法。如图3(https://arxiv.org/html/2606.14691#S2.F3)所示,CORA使用CRM来估计思考-答案一致性,并将其作为显式奖励信号集成到RLVR中。为减轻异构奖励之间的干扰,我们引入一种奖励-优势拆分策略,将任务奖励和一致性奖励的优化信号分离开来。

### 3.1 一致性奖励模型

基于初步分析,我们认为具有答案级奖励的RLVR存在不足。

相似文章

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。