GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

Hugging Face Daily Papers 2026/06/03 00:00 论文

摘要

GRAIL 引入了梯度重加权优势，以改进 LLM 推理强化学习中的 token 级信用分配，在多个模型上优于 GRPO。

可验证奖励的强化学习（如 GRPO）现在已成为提升大型语言模型（LLM）数学推理能力的常用方法。然而，当前方法通常将序列级优势广播到所有 token，或使用昂贵的过程奖励模型（PRM）进行步骤级监督。均匀优势分布假设所有 token 对最终奖励的贡献相同，这稀释了梯度信号，因为错误的推理步骤和填充词与有效的逻辑推理同样被强烈更新。为解决此问题，我们引入了梯度重加权优势（GRAIL），一种内在的逐token优势重加权方法。GRAIL 利用梯度激活显著性，将更大的权重分配给对最终答案更敏感的 token。在 Qwen3、R1-distilled 和 OctoThinker 系列中的五个模型上的评估表明，GRAIL 始终优于 GRPO。GRAIL 在准确率上平均提升 3.60%，在 Pass@3 上提升 3.05%，表明无需过程级监督即可实现细粒度推理对齐。

查看原文

查看缓存全文

缓存时间: 2026/06/04 03:42

论文页面 - GRAIL：面向可验证奖励的强化学习的梯度重加权优势

来源：https://huggingface.co/papers/2606.04889

摘要

梯度重加权优势（GRAIL）通过基于梯度激活显著性重新加权令牌级优势，提升了 LLM 的数学推理能力，在准确率和 Pass@3 指标上均优于 GRPO。

基于可验证奖励的强化学习（https://huggingface.co/papers?q=Reinforcement%20learning）（例如 GRPO（https://huggingface.co/papers?q=GRPO））如今已是提升大语言模型（https://huggingface.co/papers?q=Large%20Language%20Models）（LLM）数学推理（https://huggingface.co/papers?q=mathematical%20reasoning）能力的常用方法。然而，当前方法通常将单一的序列级优势广播到所有令牌，或者使用成本高昂的过程奖励模型（https://huggingface.co/papers?q=process%20reward%20models）（PRM）进行步骤级监督。均匀的优势分配假设所有令牌对最终奖励的贡献相同，这稀释了梯度信号，因为缺陷推理步骤和填充词与有效的逻辑推理得到了同等强度的更新。为解决这一问题，我们提出梯度重加权优势（GRAIL），一种内在的令牌级优势（https://huggingface.co/papers?q=token-wise%20advantage）重加权方法。GRAIL 利用梯度激活显著性（https://huggingface.co/papers?q=gradient-activation%20saliency），为那些对最终答案更局部敏感的令牌分配更大权重。在 Qwen3、R1-distilled 和 OctoThinker 系列五个模型上的评估表明，GRAIL 始终优于 GRPO（https://huggingface.co/papers?q=GRPO）。GRAIL 在准确率上平均提升 3.60%，在 Pass@3（https://huggingface.co/papers?q=Pass%403）上平均提升 3.05%，这表明无需过程级监督即可实现细粒度推理对齐。

查看 arXiv 页面 (https://arxiv.org/abs/2606.04889)查看 PDF (https://arxiv.org/pdf/2606.04889)GitHub1 (https://github.com/declare-lab/grail)添加到集锦 (https://huggingface.co/login?next=%2Fpapers%2F2606.04889)

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。

引用此论文的 Space0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。

包含此论文的集锦0

暂无集锦包含此论文

请将此论文添加到集锦 (https://huggingface.co/new-collection) 中以从本页面链接。

GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

论文页面 - GRAIL：面向可验证奖励的强化学习的梯度重加权优势

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的集锦0

相似文章

GRPO 下基于梯度的 LoRA 秩分配：一项实证研究

CurveRL：面向LLM推理的基于分布感知的上下文权重调整原则性方法

RL用于LLM的价值梯度假说

DACA-GRPO：扩散语言模型中强化学习的去噪感知信用分配

基于价值梯度流的强化学习

提交意见反馈