GRLO:从零开始迈向开放环境下的通用强化学习

arXiv cs.LG 论文

摘要

GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。

arXiv:2605.15464v1 公告类型:新论文 摘要:后训练已成为解锁大型语言模型能力的关键步骤,而强化学习(RL)正成为一种至关重要的范式。近期基于 RL 的后训练日益分化为两种范式:基于人类反馈的强化学习(RLHF),它使用目标领域中的人类偏好信号来优化模型;以及基于可验证奖励的强化学习(RLVR),它在验证器支持的环境中运行。后者在近期面向推理的后训练中占据主导地位,因为它在特定领域任务(如推理)上带来了更强的性能提升和更高的效率。然而,尽管领域内 RL 训练取得了有前景的性能,它仍然需要大量的 GPU 计算资源,这成为广泛采用的主要障碍。在这项工作中,我们研究了从零开始在开放环境中通过少量交互学习到的 RLHF 的泛化能力,并探究其显式习得的对话能力是否能隐式迁移到下游任务(如数学推理和代码生成),即 GRLO。具体而言,在 Qwen3-4B-Base 骨干模型上,GRLO 仅使用 5000 条 prompt 和 22.7 GPU 小时,就将所有领域的平均性能从 24.1 提升至 63.1,与强大的领域内 RLVR 基线相比,数据需求减少约 $46\times$,计算需求减少约 $68\times$。由此得到的模型甚至与 Qwen 发布的后训练模型(需要更高的训练成本)具有竞争力。值得注意的是,后续的领域内 RLVR 阶段仅带来选择性提升,主要体现在较难的竞赛数学基准上。我们希望 GRLO 能为构建广泛能力的后训练模型提供一种简单高效的方案。我们的代码和数据将在 \href{https://github.com/SJY8460/GRLO}{https://github.com/SJY8460/GRLO} 上公开。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:41

# GRLO:从零开始在开放式环境中实现可泛化强化学习
来源:https://arxiv.org/html/2605.15464
###### 摘要

后训练已成为释放大型语言模型能力的关键步骤,其中强化学习(RL)作为一种关键范式崭露头角。近期基于强化学习的后训练日益分化为两种范式:基于人类反馈的强化学习(RLHF),它在目标领域使用人类偏好信号优化模型;以及基于可验证奖励的强化学习(RLVR),它在验证器支持的环境中运行。后者近年来主导了面向推理的后训练,因为在特定领域任务(如推理)上,它带来了更强的性能提升和更高的效率。然而,尽管领域内强化学习训练取得了令人鼓舞的性能,但它仍然需要大量的GPU计算资源,这仍然是广泛采用的主要障碍。在这项工作中,我们研究了RLHF从零开始在开放式环境中通过少量交互习得的能力,并探究它显式获得的对话能力能否隐式地迁移到下游任务,如数学推理和代码生成,即GRLO。具体来说,在Qwen3-4B-Base主干网络上,GRLO仅使用5K提示和22.7 GPU小时,就将所有领域的平均性能从24.1提升到63.1,所需数据量约是强领域内RLVR基线的46×,计算量约是68×,且远少于后者。得到的模型甚至与Qwen发布的后训练模型(其训练成本高得多)具有竞争力。值得注意的是,后续的领域内RLVR阶段仅带来选择性提升,主要是在更难的竞赛级数学基准上。我们希望GRLO能为构建广泛能力强的后训练模型提供一个简单高效的方案。我们的代码和数据将发布于:https://github.com/SJY8460/GRLO。

## 1 引言

后训练已成为释放强大基础语言模型潜力的关键阶段(Ouyang等人,2022 (https://arxiv.org/html/2605.15464#bib.bib1);Grattafiori等人,2024 (https://arxiv.org/html/2605.15464#bib.bib29);Yang等人,2025 (https://arxiv.org/html/2605.15464#bib.bib15);Guo等人,2025 (https://arxiv.org/html/2605.15464#bib.bib27))。对于面向推理的后训练,两种范式尤为核心:监督微调(SFT),它从精心策划的轨迹中蒸馏推理行为;以及强化学习(RL),它直接针对偏好或正确性信号优化模型。

一个有影响力的工作方向依赖于长链思维SFT和蒸馏来引出显式的多步推理 (Ye等人,2025 (https://arxiv.org/html/2605.15464#bib.bib33);Muennighoff等人,2025 (https://arxiv.org/html/2605.15464#bib.bib11);Hugging Face,2025 (https://arxiv.org/html/2605.15464#bib.bib13))。虽然在基准测试中有效,但这些方法通常产生非常长的生成内容,导致服务成本高且难以阅读。此外,它们的收益可能对规模高度敏感,特别是对于较小的主干网络,在有限的数据预算下,更长的推理轨迹并不总能一致地转化为更强的整体性能(Yu等人,2025 (https://arxiv.org/html/2605.15464#bib.bib9);Yeo等人,2025 (https://arxiv.org/html/2605.15464#bib.bib38))。

与此同时,强化学习已成为后训练的主导范式,并日益分化为两种主要策略。基于人类反馈的强化学习(RLHF)通常使用一个习得的奖励模型来优化模型行为,该模型捕获目标领域内的人类偏好(Ouyang等人,2022 (https://arxiv.org/html/2605.15464#bib.bib1);Rafailov等人,2023 (https://arxiv.org/html/2605.15464#bib.bib36);Ethayarajh等人,2024 (https://arxiv.org/html/2605.15464#bib.bib34);Gheshlaghi Azar等人,2024 (https://arxiv.org/html/2605.15464#bib.bib35))。相比之下,基于可验证奖励的强化学习(RLVR)使用基于精确规则或验证器的奖励,使得在可以自动检查正确性的领域(尤其是数学推理和代码)中,优化更准确、更高效(Lightman等人,2023 (https://arxiv.org/html/2605.15464#bib.bib25);Shao等人,2024 (https://arxiv.org/html/2605.15464#bib.bib12);Guo等人,2025 (https://arxiv.org/html/2605.15464#bib.bib27);Cheng等人,2025 (https://arxiv.org/html/2605.15464#bib.bib26);Xie等人,2025 (https://arxiv.org/html/2605.15464#bib.bib32))。因此,RLVR已成为推理后训练的主导范式。然而,RLVR通常计算代价高昂,天然局限于具有可验证奖励的领域,并且通常难以泛化到更广泛的对话行为。图1 (https://arxiv.org/html/2605.15464#S1.F1) 说明了这一差距:代表性的领域导向数学训练流程可以显著提升数学推理性能,但向通用对话的迁移却有限,正如AlpacaEval 2(评估针对GPT-4-Turbo的开放式响应质量)所衡量的那样(Dubois等人,2025 (https://arxiv.org/html/2605.15464#bib.bib10))。

为了解决这个领域覆盖缺口,General-Reasoner (Ma等人,2025 (https://arxiv.org/html/2605.15464#bib.bib2)) 通过将多样化的领域知识转换为可验证的问答对,拓宽了基于验证器的强化学习。然而,如图2 (https://arxiv.org/html/2605.15464#S1.F2) 所示,这种策略仍然需要比我们这里研究的低资源设置大得多的训练预算,并且向开放式对话的强迁移仍然困难。此外,许多开放式对话缺乏明确的真实响应,使其天然不适合纯粹的基于验证器的优化,而更适合偏好导向的奖励信号(Ouyang等人,2022 (https://arxiv.org/html/2605.15464#bib.bib1);Rafailov等人,2023 (https://arxiv.org/html/2605.15464#bib.bib36);Bhaskar等人,2025 (https://arxiv.org/html/2605.15464#bib.bib8))。一个可能的解决方案是增加一个额外的面向对话的后训练阶段,以便模型同时获得更强的对话能力和下游推理技能。然而,这进一步增加了整体的训练成本,这对于研究社区来说仍然是一个严重的制约因素。更根本的是,目前尚不清楚在可验证领域中衡量的能力是否可以通过开放式训练中的泛化来提升,以及可验证和不可验证的能力是否可以在一个单一高效的后训练框架内共同提升。

参考图注图1:基于Qwen2.5-7B-Math模型的初步分析,其中领域内训练提升了数学推理,但通用对话性能仍然接近于零。近期工作表明,通过自我训练、蒸馏和偏好优化,可以将强大的基础模型在推理任务上进一步显著提升(Singh等人,2024 (https://arxiv.org/html/2605.15464#bib.bib43);Guo等人,2025 (https://arxiv.org/html/2605.15464#bib.bib27);Tu等人,2025 (https://arxiv.org/html/2605.15464#bib.bib16))。一种可能的解释是,RL重塑了模型的输出分布,使其能够更好地利用预训练期间已获得的能力。然而,RL现有的大部分进展仍然依赖于在可验证环境(如数学和逻辑)中进行大规模、特定领域的优化(Shao等人,2024 (https://arxiv.org/html/2605.15464#bib.bib12);Guo等人,2025 (https://arxiv.org/html/2605.15464#bib.bib27);Xie等人,2025 (https://arxiv.org/html/2605.15464#bib.bib32))。这些工作并未探究在开放式环境中扩展RL是否能够产生类似的广泛收益,或者这类改进是否会迁移到特定领域的推理性能上。

核心假设在开放式环境中的强化学习可以解锁强大的预训练基础模型的通用对话能力,并且这些收益可以迁移到下游推理和代码生成,而无需特定领域的后训练。

为了验证这个假设,我们提出了GRLO,一个用于开放式环境的简单强化学习方案。与其说GRLO引入了一种根本性的新方法,不如说它改变了训练环境:策略在一个小型且多样化的开放式提示池上进行优化,然后我们检查由此产生的行为是否能泛化到其他领域,如数学推理和代码生成。

如图2 (https://arxiv.org/html/2605.15464#S1.F2) 所示,尽管训练预算非常小,GRLO仍能实现强大的跨领域迁移。在Qwen3-4B上,仅使用5K训练样本和22.7 GPU小时,它就将推理(Math500, GPQA)、代码生成(HumanEval, MBPP)和通用对话(AlpacaEval 2 LC)的平均得分从24.1提升到63.1。这已经匹配或超过了成本高得多的General-Reasoner-4B基线 (Ma等人,2025 (https://arxiv.org/html/2605.15464#bib.bib2)) 的总体性能,同时使用的数据量减少了46×,GPU小时数减少了67.8×,并且与Qwen团队发布的Qwen3-4B(非思考版)(Yang等人,2025 (https://arxiv.org/html/2605.15464#bib.bib15)) 相比仍具有高度竞争力。后续的领域内数学RLVR阶段仍然有帮助,但主要体现在更难的竞赛级数学基准上,而不是作为广泛迁移的主要来源(见表3 (https://arxiv.org/html/2605.15464#S4.T3))。GRLO在精神上也与RLMT (Bhaskar等人,2025 (https://arxiv.org/html/2605.15464#bib.bib8)) 相关,后者通过使用基于偏好的奖励模型优化开放式提示上的长思维轨迹来改进通用聊天。然而,目标不同:我们研究的不是推理式思维如何提升聊天质量,而是开放式RL本身能否从零开始提升通用对话能力,以及这种提升能否迁移到下游推理和代码生成。

参考图注图2:Qwen3-4B上的GRLO:训练数据、GPU小时数以及在推理、代码生成和通用对话方面的分组性能。我们的贡献总结如下:

1. 1. 我们重新审视了领域内RL训练作为一个后训练设计问题,并评估了开放式RL是否可以作为下游迁移的实际来源。
2. 2. 我们证明了一个轻量级的开放式RL(从零开始)阶段可以共同提升推理、代码生成和通用对话,达到与更强的内网RLVR基线相当的整体性能,同时使用的数据和计算资源大幅减少。得到的模型也与Qwen和Meta官方发布的后训练模型具有竞争力,尽管它们的后训练流程规模大得多。
3. 3. 我们分析了扩展行为、跨族系迁移和响应长度,以阐明这种效应何时以及为何出现。结果表明,这些收益是系统性地出现的,并且可以通过后续的领域内RLVR阶段进一步补充。

## 2 开放式环境中的GRLO

### 2.1 开放式对话环境

鉴于预训练的黑盒特性(其底层数据组成并非显式已知),我们构建了一个约5K合成提示的精选池,以使后训练环境明确化。这个环境并非专注于具有精确自动检查器的狭窄领域,而是涵盖科学分析、论证性综合、概念解释和长形式推理(图3 (https://arxiv.org/html/2605.15464#S2.F3))。一个轻量级的主题审计进一步证实该提示池确实是开放式的,而非以数学为中心(图4 (https://arxiv.org/html/2605.15464#S2.F4)):最大的类别是政策/历史(34.8%)、生物医学/健康(15.7%)、技术/工程(15.6%)、环境/地球系统(14.7%)、人文/文化(9.3%)和一般分析(9.8%)。我们还提供了一个使用5K UltraFeedback提示池的附录比较,它产生了类似的强大整体性能(表7 (https://arxiv.org/html/2605.15464#A3.T7))。

科学与分析提示。分析月球上的南极-艾特肯盆地,使用最新的轨道、雷达和光谱证据。总结相互竞争的假说,讨论哪些已经确定、哪些仍不确定,并以连贯的科学综述形式而非简短的事实查找来撰写答案。人文与论证提示。解释维特根斯坦、种族、摄影技术和政治批评如何在一个长篇解释性论证中相互作用。答案必须组织多个概念,将它们明确连接起来,并且对非专业受众保持可读性。

图 3:来自开放式 GRLO 环境的代表性提示类型。参考图注图 4:对 5K 提示开放式训练环境的启发式主题审计。
### 2.2 领域内 RL vs. GRLO

现有的大多数基于 RL 的后训练最好被理解为*领域内*优化:模型在特定领域的数据上进行训练,以提高它们之后在相同能力族上的表现,特别是在以推理为中心的环境(如数学和逻辑)中 (Shao 等人,2024 (https://arxiv.org/html/2605.15464#bib.bib12); Guo 等人,2025 (https://arxiv.org/html/2605.15464#bib.bib27); Cheng 等人,2025 (https://arxiv.org/html/2605.15464#bib.bib26); Xie 等人,2025 (https://arxiv.org/html/2605.15464#bib.bib32))。实际上,这通常采取两种形式:RLHF 利用领域特定的偏好信号,而 RLVR 则依赖可验证的领域答案进行在线策略学习。形式上,令πθ\\pi\_\{\\theta\}表示从预训练基础模型初始化的策略,令πref\\pi\_\{\\mathrm\{ref\}\}表示冻结的参考策略,令Din\\mathcal\{D\}\_\{\\mathrm\{in\}\}表示领域内提示分布,令Dver\\mathcal\{D\}\_\{\\mathrm\{ver\}\}表示可验证的领域内提示分布,令Dopen\\mathcal\{D\}\_\{\\mathrm\{open\}\}表示 GRLO 使用的训练分布。

领域内 RLHF。在标准的领域内环境中,像 PPO (Schulman 等人,2017 (https://arxiv.org/html/2605.15464#bib.bib6)) 这样的 RLHF 使用习得的奖励模型rφ\(x,y\)r\_\{\\phi\}\(x,y\)来对提示xx的响应yy进行评分,并优化一个 KL 正则化目标,形式如下:

maxθEx∼Din,y∼πθ\(⋅∣x\)\[rφ\(x,y\)\]−βKL\(πθ\(⋅∣x\)∥πref\(⋅∣x\)\)\.\\max\_\{\\theta\}\\;\\mathbb\{E\}\_\{x\\sim\\mathcal\{D\}\_\{\\mathrm\{in\}\},\\,y\\sim\\pi\_\{\\theta\}\(\\cdot\\mid x\)\}\\left\[r\_\{\\phi\}\(x,y\)\\right\]\-\\beta\\,\\mathrm\{KL\}\\\!\\left\(\\pi\_\{\\theta\}\(\\cdot\\mid x\)\\,\\\|\\,\\pi\_\{\\mathrm\{ref\}\}\(\\cdot\\mid x\)\\right\)\.\(1\)
领域内 RLVR。相比之下,RLVR 通常应用于可验证的领域,其中奖励由精确的自动检查决定,而不是由习得的奖励模型决定。这减少了对奖励模型的依赖,并且在可以自动检查正确性的领域中往往产生更准确、更高效的优化信号。一个代表性的 GRPO 风格目标 (Guo 等人,2025 (https://arxiv.org/html/2605.15464#bib.bib27)) 为提示x∼Dverx\\sim\\mathcal\{D\}\_\{\\mathrm\{ver\}\}采样一组响应\{yi\}i=1G\\\{y\_\{i\}\\\}\_\{i=1\}^\{G\},计算每个响应的验证器奖励rver\(x,yi\)r\_\{\\mathrm\{ver\}\}\(x,y\_\{i\}\),并优化:

maxθ⁡Ex∼Dver,\{yi\}i=1G∼πθ\[1G∑i=1GA^ilog⁡πθ\(yi∣x\)\],\\max\_\{\\theta\}\\;\\mathbb\{E\}\_\{x\\sim\\mathcal\{D\}\_\{\\mathrm\{ver\}\},\\,\\\{y\_\{i\}\\\}\_\{i=1\}^\{G\}\\sim\\pi\_\{\\theta\}\}\\left\[\\frac\{1\}\{G\}\\sum\_\{i=1\}^\{G\}\\hat\{A\}\_\{i\}\\log\\pi\_\{\\theta\}\(y\_\{

相似文章

量化强化学习中的泛化能力

OpenAI Blog

# 量化强化学习中的泛化能力 来源: [https://openai.com/index/quantifying-generalization-in-reinforcement-learning/](https://openai.com/index/quantifying-generalization-in-reinforcement-learning/) 我们训练了9个智能体来玩CoinRun,每个智能体都有不同数量的可用训练关卡。前8个智能体分别在包含100到16,000个关卡的数据集上进行训练。最后一个智能体在不受限制的关卡集合上进行训练,因此该智能体永远不会看到相同的关卡两次。

G-Zero:从零数据开始的无界生成自博弈方法

Hugging Face Daily Papers

本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。