ProcessThinker: 通过基于展开的过程奖励增强多模态大语言模型推理
摘要
ProcessThinker 引入了一种实用的后训练流程,无需训练显式的过程奖励模型即可提供步骤级的过程奖励。它利用基于展开的奖励为多模态大语言模型中的多步推理提供密集的信用分配,在视频基准测试上持续提升性能。
arXiv:2606.11209v1 公告类型:新论文
摘要:视觉问答越来越需要多步推理。最近基于可验证奖励(RLVR)和群体相对策略优化(GRPO)的强化学习后训练可以改善多模态推理,但大多数方法依赖于稀疏的仅结果奖励。因此,它们难以判断错误答案是由于推理后期的小错误,还是从一开始就无用的轨迹。常见的解决方案是训练一个过程奖励模型(PRM)进行步骤级监督,但这通常需要大规模高质量的思维链标注和额外的训练成本。我们提出 ProcessThinker,一种实用的后训练流程,无需训练显式的 PRM 即可提供步骤级的过程奖励。ProcessThinker 首先将推理轨迹重写为步骤标记格式以进行冷启动监督微调,然后应用带有标准格式奖励和基于展开的过程奖励的 GRPO。具体来说,对于每个中间步骤,我们从中采样多个后续步骤,并使用经验成功率(最终答案验证)作为步骤奖励。这提供了密集的信用分配,鼓励更可靠地支持正确结论的推理步骤,有助于减少步骤之间不一致或自相矛盾的进展——这是逻辑推理中的一个关键问题。在四个具有挑战性的视频基准(Video-MMMU、MMVU、VideoMathQA 和 LongVideoBench)上,ProcessThinker 持续优于基线模型 Qwen3-VL-8B-Instruct。
查看缓存全文
缓存时间: 2026/06/11 13:35
# ProcessThinker:通过基于展开的过程奖励增强多模态大语言模型的推理能力
来源:https://arxiv.org/html/2606.11209
Jingpei Wu1,5\\NoHyper\\endNoHyperXiao Han1\\NoHyper11footnotemark:1\\endNoHyperWeixiang Shen1Boer Zhang2Zifeng Ding3,4Volker Tresp1,5 1LMU Munich2Harvard University3University of Cambridge4Mina AI 5Konrad Zuse School of Excellence in Reliable AI \(relAI\)
###### 摘要
视觉问答日益需要多步骤推理。最近,基于可验证奖励的强化学习后训练(RLVR)与群体相对策略优化(GRPO)可以改善多模态推理,但大多数方法依赖于稀疏的仅最终答案奖励。因此,它们难以判断错误答案是由于推理后期的一个小错误,还是从一开始就无用的轨迹造成的。一个常见的解决方案是训练一个过程奖励模型(PRM)进行步骤级监督,但这通常需要大规模、高质量的思维链标注和额外的训练成本。我们提出**ProcessThinker**,一个实用的后训练流程,无需训练显式的PRM即可提供步骤级*过程奖励*。ProcessThinker首先将推理痕迹重写为步骤标记格式进行冷启动监督微调,然后应用带有标准格式奖励和我们基于展开的过程奖励的GRPO。具体来说,对于每个中间步骤,我们从一个步骤采样多个继续,并使用经验成功率(最终答案验证)作为步骤奖励。这提供了密集的信用分配,并鼓励更可靠地支持正确结论的推理步骤,有助于减少跨步骤的不一致或自相矛盾的进展——这是逻辑推理中的一个关键问题。在四个具有挑战性的视频基准(Video-MMMU、MMVU、VideoMathQA和LongVideoBench)上,ProcessThinker持续优于基线模型Qwen3-VL-8B-Instruct。
## 1 引言
多模态大语言模型(MLLMs)在开放式视觉理解和问答方面取得了快速进展。借助思维链(CoT)提示,MLLMs可以产生多步骤推理痕迹,并经常提高任务性能。这种长程推理能力对于答案依赖于一系列中间推理的复杂问题越来越重要。最近,基于可验证奖励的强化学习后训练(RLVR),通常与基于群体的目标(如组相对策略优化(GRPO))配对,进一步增强了纯文本和多模态环境下的多步骤推理 (Shao 等, 2024; DeepSeek-AI, 2025; Su 等, 2025; Sim 等, 2025; Feng 等, 2025; Zhang 等, 2025b; Park 等, 2025; Wang 等, 2025b; Zhang 等, 2025d; Yang 等, 2025; Huang 等, 2025)。然而,GRPO 风格的 RLVR 中的监督信号通常是*稀疏的*:验证器只检查最终答案。对于长推理痕迹,组内的许多样本可能获得相同的结果奖励,这会削弱学习信号,并激发奖励塑造和采样策略 (Yao 等, 2025; Chen 等, 2025; Zhang 等, 2025c; Niu 等, 2026; Yari and Koto, 2026; Tao 等, 2025; Lyu 等, 2025)。即使有这些改进,仅结果监督仍然很少提供关于当最终答案错误时哪些中间步骤有帮助的信息。
一种自然的密集监督方法是对中间步骤进行评分。过程奖励模型(PRMs)提供步骤级反馈,并已用于重排序、搜索和测试时扩展,通过评估推理过程的质量 (Lightman 等, 2023; Setlur 等, 2024; Khalifa 等, 2025; Zhao 等, 2025a; Wang 等, 2025a; Du 等, 2025)。最近的工作也探索使用 PRMs 在 RL 训练期间提供过程奖励 (Luo 等, 2025)。然而,基于 PRM 的监督通常需要高质量的步骤标注(或合成它们的复杂流程),而自动化方法通常依赖于蒙特卡洛展开或 MCTS 风格的搜索,这可能很嘈杂,并且对“步骤”的定义敏感 (Zhang 等, 2024; 2025a; 2025e; Tan 等, 2025; Ding 等, 2025)。此外,训练和维护一个单独的 PRM 会增加工程开销,并可能导致 PRM 与最终策略之间的不匹配。
这提出了一个对逻辑多步推理至关重要的问题:*我们能否在不训练单独 PRM 的情况下获得步骤级训练信号,从而鼓励更一致的推理痕迹?* StepGRPO (Zhang 等, 2025b) 是朝这个方向迈出的重要一步,它使用基于规则的逐步奖励(例如,奖励关键步骤的存在并强制执行结构良好的推理格式)。然而,它仍然不直接度量特定中间步骤是否使问题更容易解决。VinePPO (Kazemnejad 等, 2025) 共享类似的直觉,使用蒙特卡洛展开来估计 PPO 中信用分配的步骤级值;然而,它针对纯文本 LLM,并没有在 GRPO 框架内提供基于展开的过程奖励。我们提出 **ProcessThinker**,通过*继续可解性* 为每个推理步骤分配基于展开的*过程奖励* (图1)。关键思想很简单:一个中间步骤是有用的,如果以部分轨迹为条件,模型更可能达到正确的最终答案。我们通过从当前策略开始,从每个步骤前缀采样多个继续,并计算在 RLVR 中使用的相同最终答案验证器下的经验成功率来估计这一点。这提供了步骤效用的直接、无模型估计,并鼓励其步骤更可靠地支持正确结论的推理轨迹,减少跨步骤的不一致进展——这是逻辑推理中的核心挑战 (Lightman 等, 2023)。我们在 Qwen3-VL-8B-Instruct (Bai 等, 2025) 上实例化 ProcessThinker,并分两个阶段进行训练:(i) 在通过使用更强的教师模型将 Video-R1-CoT 轨迹重写为显式步骤分解获得的步骤标记数据集上进行 SFT 热身,以及 (ii) 使用稀疏结果奖励和我们的基于展开的过程奖励的加权组合,以及轻量级格式化激励进行 GRPO 后训练。我们在视频领域进行评估,但所提出的奖励构造是模型和模态无关的。
总之,我们做出以下贡献:(1) 我们提出了一个简单的基于 GRPO 的后训练框架,在不训练显式过程奖励模型 (PRM) 的情况下结合了步骤级奖励。(2) 我们引入了一种基于展开的过程奖励,该奖励通过以步骤前缀为条件的多个继续的经验成功率为每个推理步骤评分。(3) 我们在四个视频推理基准上展示了相较于 Qwen3-VL-8B-Instruct 的一致改进,并且消融实验表明,增加过程奖励的权重会带来更大的收益。
参见说明图1:一次 GRPO 更新中的基于展开的过程奖励。对于问题 QQ,我们从当前策略采样一组 GG 个候选响应。对于每个响应,我们提取步骤片段\{st\}\\\{s\_\{t\}\\\} (包含多个 aa) 并通过从先前步骤(s1,...,sk)(s\_\{1\},\\dots,s\_\{k\})开始的 MM 个继续展开的成功率对每个步骤 kk 进行评分,产生步骤得分 ct c\_\{t\} 和平均过程得分。每个响应的最终奖励结合了格式奖励、过程奖励和步骤计数塑形(奖励 + 惩罚门),然后用于计算 GRPO 的组相对优势。
## 2 方法
给定多模态上下文 xx(视频帧或图像加文本提示),模型生成输出 yy。我们强制执行一种步骤标记的推理格式
y=⟨think⟩...⟨step⟩sk⟨/step⟩...⟨/think⟩⟨answer⟩ans⟨/answer⟩,y=\\langle\\texttt\{think\}\\rangle\\dots\\langle\\texttt\{step\}\\rangle s\_\{k\}\\langle/\\texttt\{step\}\\rangle\\dots\\langle/\\texttt\{think\}\\rangle\\langle\\texttt\{answer\}\\rangle ans\\langle/\\texttt\{answer\}\\rangle,\(1\)这使得中间步骤显式化,并允许逐步评分(图1)。
### 2.1 SFT 数据构建(格式 + 过滤)
从 Video-R1-CoT-165k (Feng 等, 2025) 开始,我们使用更强的教师模型 Qwen3-VL-30B-A3B-Instruct (Bai 等, 2025) 将每个样本重写为步骤标记格式。教师被指示保留原始解决方案,同时将推理分割成非平凡、非冗余的步骤。为了减少重写噪声(缺失/重复步骤、语义漂移、步骤-答案不匹配),我们应用第二轮过滤器,使用教师对以下内容评分:(i) 与原始解决方案的答案保真度,(ii) 步骤与最终答案之间的一致性,以及 (iii) 步骤质量。我们保留前 19k 个样本用于 SFT,并采样 1,250 个提示用于 RL。我们在 19k 训练集上微调 Qwen3-VL-8B-Instruct 以获得 ProcessThinker-SFT,它能够可靠地生成可解析的步骤标记轨迹。
### 2.2 使用基于展开的过程奖励的 GRPO
**GPRO** 对于每个提示 xx,我们从当前策略 πθ(⋅|x) \\pi\_\{\\theta\}(\\cdot|x) 采样一组 GG 个响应 \{y(g)\}g=1G \\\{y^\{\(g\)\}\\\}\_\{g=1\}^\{G\},计算每个响应的标量奖励 r(g) r^\{\(g\)\},并在组内对奖励进行归一化以获得相对优势(均值/方差归一化)。然后使用标准的 GRPO 配方并带有对参考策略的 KL 正则化来更新策略。ProcessThinker 与先前的 RLVR 工作的主要区别在于下面的奖励设计。
**基于展开的过程奖励(继续可解性)**。对于一个具有步骤 s1:K s\_\{1:K\} 和真实答案 ans⋆ ans^\{\\star\} 的采样响应 yy,我们通过模型在该前缀条件下成功*完成*问题的频率来对每个前缀 pi=(s1,...,si) p\_\{i\}=(s\_\{1\},\\ldots,s\_\{i\}) 进行评分。我们采样 M 个继续 y^i(m)∼πθ(⋅|x,pi) \\hat\{y\}\_\{i\}^\{\(m\)\}\\sim\\pi\_\{\\theta\}(\\cdot|x,p\_\{i\}),并将步骤分数定义为经验成功率:
ci=1M∑m=1MI\[Ans(y^i(m))=ans⋆\]。c\_\{i\}=\\frac\{1\}\{M\}\\sum\_\{m=1\}^\{M\}\\mathbf\{I\}\\\!\\left\[\\mathrm\{Ans\}(\\hat\{y\}\_\{i\}^\{\(m\)\))=ans^\{\\star\}\\right\]。\(2\)轨迹级过程奖励平均前缀可解性:
Rproc(y)=1min(K,Kmax)∑i=1min(K,Kmax)ci, R\_\{\\text\{proc\}\}(y)=\\frac\{1\}\{\\min(K,K\_\{\\max\})\}\\sum\_\{i=1\}^\{\\min(K,K\_\{\\max\})\}c\_\{i\}, \(3\)除非另有说明,否则使用 M=4 M=4 和 Kmax=6 K\_\{\\max\}=6。这提供了密集的信用分配:即使 yy 中的最终答案是错误的,早期步骤也可以获得部分信用。
**格式奖励、有界步骤奖励和惩罚门**。我们使用严格的格式奖励 rfmt r\_\{\\text\{fmt\}\},只有在标签正确嵌套且 K∈[Kmin,Kmax] K\\in[K\_\{\\min\},K\_\{\\max\}] 时才授予(如果在一定范围内,也可以选择长度奖励 [Lmin,Lmax] [L\_\{\\min\},L\_\{\\max\}]),这类似于步骤结构化的 RL 配方。为了鼓励使用超过最小数量的步骤而不导致步骤膨胀,我们添加一个有界步骤奖励
B(K)=αclip(K−KminKmax−Kmin,0,1)。 B(K)=\\alpha\\sqrt\{\\mathrm\{clip\}\\Big\(\\frac\{K-K\_\{\\min\}\}\{K\_\{\\max\}-K\_\{\\min\}\},\\,0,\\,1\\Big\)\}。\(4\)为了减少奖励黑客(步骤太少或仅满足格式的浅层步骤),我们使用一个简单的惩罚门:
R̄acc=\{1,Racc=1,−B(K),otherwise, R̄proc=\{Rproc,Rproc≥τ,−B(K),otherwise,\\bar\{R\}\_\{\\text\{acc\}\}=\\begin\{cases\}1,&R\_\{\\text\{acc\}\}=1,\\\\-\\,B(K),&\\text\{otherwise\},\\end\{cases\}\\qquad\\bar\{R\}\_\{\\text\{proc\}\}=\\begin\{cases\}R\_\{\\text\{proc\}\},&R\_\{\\text\{proc\}\}\\geq\\tau,\\\\-\\,B(K),&\\text\{otherwise\},\\end\{cases\}\(5\)其中 Racc∈\{0,1\} R\_\{\\text\{acc\}\}\\in\\\{0,1\\\} 是最终答案准确性,τ=0.5 \\tau=0.5。
**最终奖励**。对于格式有效的响应,奖励为
r(g)=(rfmt+β)+λaccR̄acc+λprocR̄proc+B(K), λacc+λproc=1。 r^\{\(g\)\}=(r\_\{\\text\{fmt\}\}+\\beta)\\;+\\;\\lambda\_\{\\text\{acc\}\}\\bar\{R\}\_\{\\text\{acc\}\}\\;+\\;\\lambda\_\{\\text\{proc\}\}\\bar\{R\}\_\{\\text\{proc\}\}\\;+\\;B(K),\\qquad\\lambda\_\{\\text\{acc\}\}+\\lambda\_\{\\text\{proc\}\}=1。\(6\)如果格式无效,我们设置 r(g)=0 r^\{\(g\)\}=0 并跳过继续展开以提高效率。
## 3 实验
表1:四个视频推理基准的主要结果。所有 ProcessThinker 变体共享相同的 SFT 热身,并使用公式6中的总体奖励与 GRPO 进行训练。“process-only”使用我们基于展开的逐步过程奖励(第2.2节),而“outcome-only”仅使用最终答案正确性。我们在四个视频推理基准上进行评估:Video-MMMU (Hu 等, 2025)、MMVU (Zhao 等, 2025b)、VideoMathQA (Rasheed 等, 2025) 和 LongVideoBench (Wu 等, 2024),并按照每个基准的官方协议报告准确率。
**训练设置**。所有 ProcessThinker 变体共享相同的 SFT 热身,仅在奖励混合 (λacc,λproc) (\\lambda\_\{\\text\{acc\}\},\\lambda\_\{\\text\{proc\}\}) 上有所不同,如公式6所示。除非另有说明,我们为 GRPO 每个提示采样 G=4 G=4 个响应,并为每个步骤计算 M=4 M=4 个继续展开的过程奖励,上限为 Kmax=6 K\_\{\\max\}=6。
**主要结果**。如表1所示,ProcessThinker(仅过程奖励)在四个基准上均优于 Qwen3-VL-8B-Instruct 基线,将平均得分从 56.30 提高到 59.72(+3.42)。Video-R1-7B (Feng 等, 2025) 仅供参考,尽管它使用较旧的 Qwen2.5-VL 骨干网络,并且不能直接比较。最大的提升是在 VideoMathQA 上(+4.45),而仅在结果奖励上的 GRPO 平均只有 +2.22 的提升。相似文章
OmniThoughtVis:一种用于部署型多模态推理模型的可扩展蒸馏流水线
本文介绍了 OmniThoughtVis,这是一种可扩展的流水线,用于将多模态推理能力从大型教师模型蒸馏到更小、面向部署的多模态大语言模型(MLLMs)中。该方法利用精心策划的思维链(chain-of-thought)数据,显著提升了从2B到8B参数规模模型在 MathVerse 和 MMMU-Pro 等基准测试上的推理性能。
无监督过程奖励模型
本文提出无监督过程奖励模型(uPRM),通过利用LLM的下一个令牌概率识别错误推理步骤,从而消除人工标注需求,在准确率上相比LLM-as-a-Judge提升高达15%,并且作为验证器和奖励信号时表现与有监督PRM相当。
面向逐步模型路由的评分引导过程奖励
RoRo 提出了一种面向大型推理模型逐步模型路由的评分引导过程奖励框架,将过程奖励与结果奖励结合,通过 GRPO 训练路由策略,在推理基准测试中优于基线方法。
先思考,再打分:解耦推理与打分的视频奖励建模
本文介绍了 DeScore,这是一种通过解耦推理和打分过程来提高训练效率和泛化能力的视频奖励模型。它利用多模态大语言模型采用“先思考再打分”的范式,解决了现有判别式和生成式奖励模型的局限性。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。