process-reward

#process-reward

ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward

arXiv cs.CL ↗ · 23h ago Cached

ProcessThinker introduces a practical post-training pipeline that provides step-level process rewards without training an explicit process reward model. It uses rollout-based rewards to give dense credit assignment for multi-step reasoning in multimodal LLMs, consistently improving performance on video benchmarks.

0 favorites 0 likes

#process-reward

ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents

arXiv cs.CL ↗ · 2026-06-03 Cached

ARBOR introduces a reusable rubric buffer to provide online process rewards for LLM-based search agents, improving training efficiency when outcome-only rewards are insufficient. It outperforms GRPO and DAPO on multi-hop QA benchmarks, converting up to 42% of zero-gradient training groups into informative ones.

0 favorites 0 likes

#process-reward

Rubric-Guided Process Reward for Stepwise Model Routing

arXiv cs.AI ↗ · 2026-05-29

RoRo introduces a rubric-guided process reward framework for stepwise model routing in Large Reasoning Models, using process rewards alongside outcome rewards to train a routing policy via GRPO, outperforming baselines on reasoning benchmarks.

0 favorites 0 likes

#process-reward

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

arXiv cs.CL ↗ · 2026-05-25 Cached

Introduces Metacognition-as-Reward (MaR), a reinforcement learning framework that guides LLM reasoning via metacognitive knowledge and regulation signals, achieving up to 11% improvement over vanilla methods on reasoning benchmarks.

0 favorites 0 likes

#process-reward

Curing Miracle Steps in LLM Mathematical Reasoning with Rubric Rewards

arXiv cs.CL ↗ · 2026-04-20 Cached

This paper identifies and addresses the problem of 'Miracle Steps' in LLM mathematical reasoning—unjustified jumps to correct answers that indicate reward hacking—by proposing Rubric Reward Model (RRM), a process-oriented reward function that evaluates entire reasoning trajectories. RRM achieves significant improvements on AIME2024 (26.7% to 62.6% Verified Pass@1024) and reduces Miracle Steps by 71%.

0 favorites 0 likes

process-reward

ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward

ARBOR: Online Process Rewards via a Reusable Rubric Buffer for Search Agents

Rubric-Guided Process Reward for Stepwise Model Routing

Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals

Curing Miracle Steps in LLM Mathematical Reasoning with Rubric Rewards

Submit Feedback