VeriGate：用于GRPO的验证器门控步级监督

arXiv cs.LG 2026/06/01 04:00 论文

摘要

VeriGate通过验证器门控步级监督扩展了GRPO，在验证器奖励退化时提供细粒度的信用分配。在1.5B和7B模型的推理基准测试上实现了显著的准确率提升。

arXiv:2605.30451v1 Announce Type: new 摘要：组相对策略优化（GRPO）是一种使用基于验证器的结果奖励来训练推理模型的有效方法，但其监督信号稀疏：当针对同一提示采样的所有轨迹获得相同的验证器奖励时，组相对优势归零，学习停滞。仅使用结果奖励也无法提供步级信用分配，限制了探索，并增加了学习稳健推理的难度。我们提出了VeriGate（验证器门控步级GRPO），这是GRPO的一种验证器门控扩展，通过三个设计选择解决了这些限制。首先，每当验证器奖励在采样轨迹之间产生有意义的偏好时，VeriGate让验证器负责；仅在验证器奖励退化时才使用过程监督。其次，VeriGate不是将过程奖励模型（PRM）的步级分数合并为单一的轨迹奖励，而是将其转换为未来累积奖励，以分配考虑后续步骤的信用。第三，VeriGate将这些奖励转换为组归一化的词元级优势，恢复了信息丰富的梯度和细粒度信用分配，同时相比优化聚合PRM分数的方法，对奖励作弊更不敏感。实验上，使用1.5B和7B的Qwen2.5-Instruct模型在MATH上训练，并在六个推理基准上进行评估，VeriGate在1.5B和7B模型上分别将平均准确率提高了约20%和12%，大幅减少了零梯度失败，降低了奖励作弊行为，并且相比仅使用结果奖励的GRPO和将PRM作为结果奖励的基线，提高了推理质量。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:24

# VeriGate：用于GRPO的验证器门控步骤级监督
来源：https://arxiv.org/abs/2605.30451
查看PDF (https://arxiv.org/pdf/2605.30451)

> 摘要：分组相对策略优化（GRPO）是利用基于验证器的结果奖励来训练推理模型的一种有效方法，但其监督是稀疏的：当某个提示的所有采样轨迹都获得相同的验证器奖励时，分组相对优势会归零，学习停滞。仅使用结果奖励也无法提供步骤级信用分配，限制了探索，使得学习稳健推理更加困难。我们提出VeriGate（验证器门控步骤级GRPO），这是一种验证器门控的GRPO扩展，通过三个设计选择解决了这些局限性。首先，每当验证器奖励在采样轨迹间产生有意义的偏好时，VeriGate让验证器负责，仅在验证器奖励退化时使用过程监督。其次，VeriGate不将过程奖励模型（PRM）的步骤分数合并为单一的轨迹奖励，而是将其转换为未来累积奖励，以分配延续感知的信用。第三，VeriGate将这些奖励转换为分组归一化的词元级优势，恢复信息丰富的梯度和细粒度的信用分配，同时相比优化聚合PRM分数的方法，对奖励攻击的敏感性更低。实验上，在MATH数据集上使用1.5B和7B参数的Qwen2.5-Instruct模型进行训练，并在六个推理基准上进行评估，VeriGate使1.5B和7B模型的平均准确率分别提升约20%和12%，显著减少了零梯度失败，降低了奖励攻击行为，并相比纯结果GRPO和将PRM作为结果的基线方法，提升了推理质量。

## 提交历史

来自：Aakriti Agrawal [查看邮件 (https://arxiv.org/show-email/f376f501/2605.30451)]  
**\[v1\]** 2026年5月28日星期四 18:20:32 UTC（1,087 KB）

VeriGate：用于GRPO的验证器门控步级监督

相似文章

GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

AgentV-RL：用智能体验证器扩展奖励建模

驾驭极端 Token：基于高斯核优势重权重的协方差感知 GRPO

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

AlphaGRPO：通过分解可验证奖励释放统一多模态模型中的自反式生成能力

提交意见反馈