ResRL:通过负样本投影残差强化学习提升大语言模型的推理能力
摘要
本文介绍了 ResRL,一种通过负样本投影解耦正负回复之间语义分布,从而提升大语言模型(LLM)推理能力的方法。该方法旨在改善各项基准测试性能的同时,保持生成的多样性。
查看缓存全文
缓存时间: 2026/05/08 08:04
论文页面 - ResRL:通过负样本投影残差强化学习提升 LLM 推理能力
来源: https://huggingface.co/papers/2605.00380 发布于 5 月 1 日
·
提交者 https://huggingface.co/lin1111987
zihan (https://huggingface.co/lin1111987) 于 5 月 7 日
摘要
ResRL 通过负样本投影解耦正负响应之间的语义分布,在保持多样性的同时,在多个基准测试中优于现有方法。
基于可验证奖励的强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning%20with%20Verifiable%20Rewards) (RLVR) 能够增强大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) (LLMs) 的推理能力,但由于对正奖励的过度激励,通常表现出有限的生成多样性。虽然诸如负样本强化 (NSR) 之类的方法通过增加来自负样本的惩罚权重来缓解这一问题,但它们可能会抑制正负响应之间共享的语义分布。为了在不损失多样性的情况下提升推理能力,本文提出了负样本投影 (https://huggingface.co/papers?q=negative%20sample%20projection)残差强化学习 (https://huggingface.co/papers?q=Residual%20Reinforcement%20Learning) (ResRL),该方法解耦了正负响应中相似的语义分布。我们从理论上将惰性似然位移 (https://huggingface.co/papers?q=Lazy%20Likelihood%20Displacement) (LLD) 与负-正头梯度干扰联系起来,并推导出一个单次前向传播代理,该代理为表示对齐 (https://huggingface.co/papers?q=representation%20alignment) 提供了上界,以指导保守的优势重加权 (https://huggingface.co/papers?q=advantage%20reweighting)。随后,ResRL 将负令牌隐藏表示投影到基于 SVD 的低秩正子空间 (https://huggingface.co/papers?q=SVD-based%20low-rank%20positive%20subspace),并利用投影残差调节负梯度,从而在涵盖数学、代码、Agent 任务和函数调用的十二个基准测试中平均超越强基线,既提升了推理能力又保留了多样性。值得注意的是,ResRL 在数学推理方面超越了 NSR,在 Avg@16 指标上领先 9.4%,在 Pass@128 指标上领先 7.0%。代码见 https://github.com/1229095296/ResRL.git。
查看 arXiv 页面 (https://arxiv.org/abs/2605.00380) 查看 PDF (https://arxiv.org/pdf/2605.00380) GitHub 8 (https://github.com/1229095296/ResRL) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.00380)
在您的 agent 中获取此论文:
hf papers read 2605\.00380
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。
包含此论文的合集 1
相似文章
ExpRL:面向LLM中期训练的探索式强化学习
ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。
重新思考大语言模型推理中的强化学习:关键在于稀疏策略选择,而非能力学习
本文挑战了强化学习(RL)能为大语言模型(LLM)教授新推理能力的假设,论证其作用实则是在高熵决策点进行稀疏策略选择。本文提出了 ReasonMaxxer,这是一种无需强化学习的方法,以显著更低的训练成本实现了与完整强化学习相当的性能。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
叛逆的学生:通过自蒸馏 RLVR 反转教师信号以进行推理探索
本文介绍了 RLRT,这是一种在自蒸馏过程中反转教师信号的方法,旨在强化学生模型成功的偏离行为,从而增强大语言模型的推理探索能力。
学习细化隐藏状态以实现可靠的LLM推理
提出了ReLAR,一种强化引导的潜在细化框架,在解码前迭代更新LLM中的隐藏表示,与思维链方法相比,提高了推理可靠性和效率。