ResRL:通过负样本投影残差强化学习提升大语言模型的推理能力

Hugging Face Daily Papers 论文

摘要

本文介绍了 ResRL,一种通过负样本投影解耦正负回复之间语义分布,从而提升大语言模型(LLM)推理能力的方法。该方法旨在改善各项基准测试性能的同时,保持生成的多样性。

可验证奖励强化学习(RLVR)能够增强大语言模型(LLM)的推理能力,但由于对正面奖励的过度激励,通常会导致生成多样性受限。虽然负样本强化(NSR)等方法通过提高对负样本的惩罚权重来缓解这一问题,但它们可能会抑制正负回复之间共有的语义分布。为了在保持多样性的同时提升推理能力,本文提出了负样本投影残差强化学习(ResRL),该方法能够解耦正负回复中相似的语义分布。我们从理论上将懒惰似然位移(Lazy Likelihood Displacement, LLD)与负-正头梯度干扰联系起来,并推导出一个单次前向传播的代理指标,该指标对表征对齐进行上界约束,从而指导保守的优势重加权。随后,ResRL 将负 token 的隐藏表征投影到基于奇异值分解(SVD)的低秩正子空间,并利用投影残差来调节负梯度。在涵盖数学、代码、智能体任务及函数调用的十二个基准测试中,ResRL 在提升推理能力的同时保留了多样性,平均性能优于强大的基线模型。值得注意的是,在数学推理方面,ResRL 在 Avg@16 指标上比 NSR 高出 9.4%,在 Pass@128 指标上高出 7.0%。代码详见 https://github.com/1229095296/ResRL.git。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:04

论文页面 - ResRL:通过负样本投影残差强化学习提升 LLM 推理能力

来源: https://huggingface.co/papers/2605.00380 发布于 5 月 1 日

·

提交者 https://huggingface.co/lin1111987

zihan (https://huggingface.co/lin1111987) 于 5 月 7 日

摘要

ResRL 通过负样本投影解耦正负响应之间的语义分布,在保持多样性的同时,在多个基准测试中优于现有方法。

基于可验证奖励的强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning%20with%20Verifiable%20Rewards) (RLVR) 能够增强大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) (LLMs) 的推理能力,但由于对正奖励的过度激励,通常表现出有限的生成多样性。虽然诸如负样本强化 (NSR) 之类的方法通过增加来自负样本的惩罚权重来缓解这一问题,但它们可能会抑制正负响应之间共享的语义分布。为了在不损失多样性的情况下提升推理能力,本文提出了负样本投影 (https://huggingface.co/papers?q=negative%20sample%20projection)残差强化学习 (https://huggingface.co/papers?q=Residual%20Reinforcement%20Learning) (ResRL),该方法解耦了正负响应中相似的语义分布。我们从理论上将惰性似然位移 (https://huggingface.co/papers?q=Lazy%20Likelihood%20Displacement) (LLD) 与负-正头梯度干扰联系起来,并推导出一个单次前向传播代理,该代理为表示对齐 (https://huggingface.co/papers?q=representation%20alignment) 提供了上界,以指导保守的优势重加权 (https://huggingface.co/papers?q=advantage%20reweighting)。随后,ResRL 将负令牌隐藏表示投影到基于 SVD 的低秩正子空间 (https://huggingface.co/papers?q=SVD-based%20low-rank%20positive%20subspace),并利用投影残差调节负梯度,从而在涵盖数学、代码、Agent 任务和函数调用的十二个基准测试中平均超越强基线,既提升了推理能力又保留了多样性。值得注意的是,ResRL 在数学推理方面超越了 NSR,在 Avg@16 指标上领先 9.4%,在 Pass@128 指标上领先 7.0%。代码见 https://github.com/1229095296/ResRL.git。

查看 arXiv 页面 (https://arxiv.org/abs/2605.00380) 查看 PDF (https://arxiv.org/pdf/2605.00380) GitHub 8 (https://github.com/1229095296/ResRL) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.00380)

在您的 agent 中获取此论文:

hf papers read 2605\.00380

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。

包含此论文的合集 1

相似文章

ExpRL:面向LLM中期训练的探索式强化学习

Hugging Face Daily Papers

ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。