GRAIL:面向可验证奖励强化学习的梯度重加权优势方法
摘要
GRAIL 引入了梯度重加权优势,以改进 LLM 推理强化学习中的 token 级信用分配,在多个模型上优于 GRPO。
查看缓存全文
缓存时间: 2026/06/04 03:42
论文页面 - GRAIL:面向可验证奖励的强化学习的梯度重加权优势
来源:https://huggingface.co/papers/2606.04889
摘要
梯度重加权优势(GRAIL)通过基于梯度激活显著性重新加权令牌级优势,提升了 LLM 的数学推理能力,在准确率和 Pass@3 指标上均优于 GRPO。
基于可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(例如 GRPO(https://huggingface.co/papers?q=GRPO))如今已是提升大语言模型(https://huggingface.co/papers?q=Large%20Language%20Models)(LLM)数学推理(https://huggingface.co/papers?q=mathematical%20reasoning)能力的常用方法。然而,当前方法通常将单一的序列级优势广播到所有令牌,或者使用成本高昂的过程奖励模型(https://huggingface.co/papers?q=process%20reward%20models)(PRM)进行步骤级监督。均匀的优势分配假设所有令牌对最终奖励的贡献相同,这稀释了梯度信号,因为缺陷推理步骤和填充词与有效的逻辑推理得到了同等强度的更新。为解决这一问题,我们提出梯度重加权优势(GRAIL),一种内在的令牌级优势(https://huggingface.co/papers?q=token-wise%20advantage)重加权方法。GRAIL 利用梯度激活显著性(https://huggingface.co/papers?q=gradient-activation%20saliency),为那些对最终答案更局部敏感的令牌分配更大权重。在 Qwen3、R1-distilled 和 OctoThinker 系列五个模型上的评估表明,GRAIL 始终优于 GRPO(https://huggingface.co/papers?q=GRPO)。GRAIL 在准确率上平均提升 3.60%,在 Pass@3(https://huggingface.co/papers?q=Pass%403)上平均提升 3.05%,这表明无需过程级监督即可实现细粒度推理对齐。
查看 arXiv 页面 (https://arxiv.org/abs/2606.04889)查看 PDF (https://arxiv.org/pdf/2606.04889)GitHub1 (https://github.com/declare-lab/grail)添加到集锦 (https://huggingface.co/login?next=%2Fpapers%2F2606.04889)
引用此论文的模型0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。
引用此论文的 Space0
暂无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.04889 以从本页面链接。
包含此论文的集锦0
暂无集锦包含此论文
请将此论文添加到集锦 (https://huggingface.co/new-collection) 中以从本页面链接。
相似文章
GRPO 下基于梯度的 LoRA 秩分配:一项实证研究
本研究通过实证表明,在监督微调中有效的基于梯度的 LoRA 秩分配,在基于 GRPO 的强化学习中会导致性能下降,原因在于梯度景观更为平缓以及存在梯度放大效应。
CurveRL:面向LLM推理的基于分布感知的上下文权重调整原则性方法
本文介绍了CurveRL,一种基于原则的分布感知提示权重调整方法,用于带有可验证奖励的强化学习(RLVR),通过基于通过率的排名和密度而非绝对值来分配权重,从而改进LLM推理,持续优于GRPO及其他基线方法。
RL用于LLM的价值梯度假说
本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。
DACA-GRPO:扩散语言模型中强化学习的去噪感知信用分配
本文指出了现有扩散语言模型强化学习方法中的弱点——缺乏时间信用分配和偏差似然估计——并提出了DACA-GRPO,一种即插即用的增强方案,引入了去噪进度分数和分层掩码似然,在推理、代码生成和受约束生成等多个基准上取得了一致的改进。
基于价值梯度流的强化学习
价值梯度流(VGF)提出了一种可扩展的行为正则化强化学习方法,将其构建为通过离散梯度流求解的最优传输问题,在离线强化学习和大型语言模型强化学习基准测试中取得了最先进的成果。该方法消除了显式的策略参数化,同时通过控制传输预算实现了自适应的测试时缩放。