GRAIL:面向可验证奖励强化学习的梯度重加权优势方法

Hugging Face Daily Papers 论文

摘要

GRAIL 引入了梯度重加权优势,以改进 LLM 推理强化学习中的 token 级信用分配,在多个模型上优于 GRPO。

可验证奖励的强化学习(如 GRPO)现在已成为提升大型语言模型(LLM)数学推理能力的常用方法。然而,当前方法通常将序列级优势广播到所有 token,或使用昂贵的过程奖励模型(PRM)进行步骤级监督。均匀优势分布假设所有 token 对最终奖励的贡献相同,这稀释了梯度信号,因为错误的推理步骤和填充词与有效的逻辑推理同样被强烈更新。为解决此问题,我们引入了梯度重加权优势(GRAIL),一种内在的逐token优势重加权方法。GRAIL 利用梯度激活显著性,将更大的权重分配给对最终答案更敏感的 token。在 Qwen3、R1-distilled 和 OctoThinker 系列中的五个模型上的评估表明,GRAIL 始终优于 GRPO。GRAIL 在准确率上平均提升 3.60%,在 Pass@3 上提升 3.05%,表明无需过程级监督即可实现细粒度推理对齐。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:42

论文页面 - GRAIL:面向可验证奖励的强化学习的梯度重加权优势

来源:https://huggingface.co/papers/2606.04889

摘要

梯度重加权优势(GRAIL)通过基于梯度激活显著性重新加权令牌级优势,提升了 LLM 的数学推理能力,在准确率和 Pass@3 指标上均优于 GRPO。

基于可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(例如 GRPO(https://huggingface.co/papers?q=GRPO))如今已是提升大语言模型(https://huggingface.co/papers?q=Large%20Language%20Models)(LLM)数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)能力的常用方法。然而,当前方法通常将单一的序列级优势广播到所有令牌,或者使用成本高昂的过程奖励模型(https://huggingface.co/papers?q=process%20reward%20models)(PRM)进行步骤级监督。均匀的优势分配假设所有令牌对最终奖励的贡献相同,这稀释了梯度信号,因为缺陷推理步骤和填充词与有效的逻辑推理得到了同等强度的更新。为解决这一问题,我们提出梯度重加权优势(GRAIL),一种内在的令牌级优势(https://huggingface.co/papers?q=token-wise%20advantage)重加权方法。GRAIL 利用梯度激活显著性(https://huggingface.co/papers?q=gradient-activation%20saliency),为那些对最终答案更局部敏感的令牌分配更大权重。在 Qwen3、R1-distilled 和 OctoThinker 系列五个模型上的评估表明,GRAIL 始终优于 GRPO(https://huggingface.co/papers?q=GRPO)。GRAIL 在准确率上平均提升 3.60%,在 Pass@3(https://huggingface.co/papers?q=Pass%403)上平均提升 3.05%,这表明无需过程级监督即可实现细粒度推理对齐。

查看 arXiv 页面 (https://arxiv.org/abs/2606.04889)查看 PDF (https://arxiv.org/pdf/2606.04889)GitHub1 (https://github.com/declare-lab/grail)添加到集锦 (https://huggingface.co/login?next=%2Fpapers%2F2606.04889)

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。

引用此论文的 Space0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。

包含此论文的集锦0

暂无集锦包含此论文

请将此论文添加到集锦 (https://huggingface.co/new-collection) 中以从本页面链接。

相似文章

RL用于LLM的价值梯度假说

arXiv cs.LG

本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。

DACA-GRPO:扩散语言模型中强化学习的去噪感知信用分配

arXiv cs.LG

本文指出了现有扩散语言模型强化学习方法中的弱点——缺乏时间信用分配和偏差似然估计——并提出了DACA-GRPO,一种即插即用的增强方案,引入了去噪进度分数和分层掩码似然,在推理、代码生成和受约束生成等多个基准上取得了一致的改进。

基于价值梯度流的强化学习

Hugging Face Daily Papers

价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。