ResRL：通过负样本投影残差强化学习提升大语言模型的推理能力

Hugging Face Daily Papers 2026/05/01 00:00 论文

摘要

本文介绍了 ResRL，一种通过负样本投影解耦正负回复之间语义分布，从而提升大语言模型（LLM）推理能力的方法。该方法旨在改善各项基准测试性能的同时，保持生成的多样性。

可验证奖励强化学习（RLVR）能够增强大语言模型（LLM）的推理能力，但由于对正面奖励的过度激励，通常会导致生成多样性受限。虽然负样本强化（NSR）等方法通过提高对负样本的惩罚权重来缓解这一问题，但它们可能会抑制正负回复之间共有的语义分布。为了在保持多样性的同时提升推理能力，本文提出了负样本投影残差强化学习（ResRL），该方法能够解耦正负回复中相似的语义分布。我们从理论上将懒惰似然位移（Lazy Likelihood Displacement, LLD）与负-正头梯度干扰联系起来，并推导出一个单次前向传播的代理指标，该指标对表征对齐进行上界约束，从而指导保守的优势重加权。随后，ResRL 将负 token 的隐藏表征投影到基于奇异值分解（SVD）的低秩正子空间，并利用投影残差来调节负梯度。在涵盖数学、代码、智能体任务及函数调用的十二个基准测试中，ResRL 在提升推理能力的同时保留了多样性，平均性能优于强大的基线模型。值得注意的是，在数学推理方面，ResRL 在 Avg@16 指标上比 NSR 高出 9.4%，在 Pass@128 指标上高出 7.0%。代码详见 https://github.com/1229095296/ResRL.git。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:04

论文页面 - ResRL：通过负样本投影残差强化学习提升 LLM 推理能力

来源: https://huggingface.co/papers/2605.00380 发布于 5 月 1 日

提交者 https://huggingface.co/lin1111987

zihan (https://huggingface.co/lin1111987) 于 5 月 7 日

摘要

ResRL 通过负样本投影解耦正负响应之间的语义分布，在保持多样性的同时，在多个基准测试中优于现有方法。

基于可验证奖励的强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning%20with%20Verifiable%20Rewards) (RLVR) 能够增强大型语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) (LLMs) 的推理能力，但由于对正奖励的过度激励，通常表现出有限的生成多样性。虽然诸如负样本强化 (NSR) 之类的方法通过增加来自负样本的惩罚权重来缓解这一问题，但它们可能会抑制正负响应之间共享的语义分布。为了在不损失多样性的情况下提升推理能力，本文提出了负样本投影 (https://huggingface.co/papers?q=negative%20sample%20projection)残差强化学习 (https://huggingface.co/papers?q=Residual%20Reinforcement%20Learning) (ResRL)，该方法解耦了正负响应中相似的语义分布。我们从理论上将惰性似然位移 (https://huggingface.co/papers?q=Lazy%20Likelihood%20Displacement) (LLD) 与负-正头梯度干扰联系起来，并推导出一个单次前向传播代理，该代理为表示对齐 (https://huggingface.co/papers?q=representation%20alignment) 提供了上界，以指导保守的优势重加权 (https://huggingface.co/papers?q=advantage%20reweighting)。随后，ResRL 将负令牌隐藏表示投影到基于 SVD 的低秩正子空间 (https://huggingface.co/papers?q=SVD-based%20low-rank%20positive%20subspace)，并利用投影残差调节负梯度，从而在涵盖数学、代码、Agent 任务和函数调用的十二个基准测试中平均超越强基线，既提升了推理能力又保留了多样性。值得注意的是，ResRL 在数学推理方面超越了 NSR，在 Avg@16 指标上领先 9.4%，在 Pass@128 指标上领先 7.0%。代码见 https://github.com/1229095296/ResRL.git。

查看 arXiv 页面 (https://arxiv.org/abs/2605.00380) 查看 PDF (https://arxiv.org/pdf/2605.00380) GitHub 8 (https://github.com/1229095296/ResRL) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.00380)

在您的 agent 中获取此论文：

hf papers read 2605\.00380

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.00380 即可从此页面建立链接。

ResRL：通过负样本投影残差强化学习提升大语言模型的推理能力

论文页面 - ResRL：通过负样本投影残差强化学习提升 LLM 推理能力

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 1

相似文章

ExpRL：面向LLM中期训练的探索式强化学习

重新思考大语言模型推理中的强化学习：关键在于稀疏策略选择，而非能力学习

超越推理：强化学习释放大型语言模型中的参数化知识

叛逆的学生：通过自蒸馏 RLVR 反转教师信号以进行推理探索

学习细化隐藏状态以实现可靠的LLM推理

提交意见反馈