VeriGate:用于GRPO的验证器门控步级监督

arXiv cs.LG 论文

摘要

VeriGate通过验证器门控步级监督扩展了GRPO,在验证器奖励退化时提供细粒度的信用分配。在1.5B和7B模型的推理基准测试上实现了显著的准确率提升。

arXiv:2605.30451v1 Announce Type: new 摘要:组相对策略优化(GRPO)是一种使用基于验证器的结果奖励来训练推理模型的有效方法,但其监督信号稀疏:当针对同一提示采样的所有轨迹获得相同的验证器奖励时,组相对优势归零,学习停滞。仅使用结果奖励也无法提供步级信用分配,限制了探索,并增加了学习稳健推理的难度。我们提出了VeriGate(验证器门控步级GRPO),这是GRPO的一种验证器门控扩展,通过三个设计选择解决了这些限制。首先,每当验证器奖励在采样轨迹之间产生有意义的偏好时,VeriGate让验证器负责;仅在验证器奖励退化时才使用过程监督。其次,VeriGate不是将过程奖励模型(PRM)的步级分数合并为单一的轨迹奖励,而是将其转换为未来累积奖励,以分配考虑后续步骤的信用。第三,VeriGate将这些奖励转换为组归一化的词元级优势,恢复了信息丰富的梯度和细粒度信用分配,同时相比优化聚合PRM分数的方法,对奖励作弊更不敏感。实验上,使用1.5B和7B的Qwen2.5-Instruct模型在MATH上训练,并在六个推理基准上进行评估,VeriGate在1.5B和7B模型上分别将平均准确率提高了约20%和12%,大幅减少了零梯度失败,降低了奖励作弊行为,并且相比仅使用结果奖励的GRPO和将PRM作为结果奖励的基线,提高了推理质量。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:24

# VeriGate:用于GRPO的验证器门控步骤级监督
来源:https://arxiv.org/abs/2605.30451
查看PDF (https://arxiv.org/pdf/2605.30451)

> 摘要:分组相对策略优化(GRPO)是利用基于验证器的结果奖励来训练推理模型的一种有效方法,但其监督是稀疏的:当某个提示的所有采样轨迹都获得相同的验证器奖励时,分组相对优势会归零,学习停滞。仅使用结果奖励也无法提供步骤级信用分配,限制了探索,使得学习稳健推理更加困难。我们提出VeriGate(验证器门控步骤级GRPO),这是一种验证器门控的GRPO扩展,通过三个设计选择解决了这些局限性。首先,每当验证器奖励在采样轨迹间产生有意义的偏好时,VeriGate让验证器负责,仅在验证器奖励退化时使用过程监督。其次,VeriGate不将过程奖励模型(PRM)的步骤分数合并为单一的轨迹奖励,而是将其转换为未来累积奖励,以分配延续感知的信用。第三,VeriGate将这些奖励转换为分组归一化的词元级优势,恢复信息丰富的梯度和细粒度的信用分配,同时相比优化聚合PRM分数的方法,对奖励攻击的敏感性更低。实验上,在MATH数据集上使用1.5B和7B参数的Qwen2.5-Instruct模型进行训练,并在六个推理基准上进行评估,VeriGate使1.5B和7B模型的平均准确率分别提升约20%和12%,显著减少了零梯度失败,降低了奖励攻击行为,并相比纯结果GRPO和将PRM作为结果的基线方法,提升了推理质量。

## 提交历史

来自:Aakriti Agrawal [查看邮件 (https://arxiv.org/show-email/f376f501/2605.30451)]  
**\[v1\]** 2026年5月28日星期四 18:20:32 UTC(1,087 KB)

相似文章

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。