AReaL: 用于语言推理的大规模异步强化学习系统

Papers with Code Trending 论文

摘要

AReaL是一个用于LLM推理的完全异步强化学习系统,相比同步系统实现了高达2.57倍的训练加速,同时保持或提升了性能。它将生成与训练解耦以提高GPU利用率,并包含诸如staleness-enhanced PPO等优化。

强化学习(RL)已成为训练大型语言模型(LLM)的热门范式,尤其是用于推理任务。有效的LLM强化学习需要大规模并行化,并对高效训练系统提出了迫切需求。现有的大规模LLM强化学习系统大多采用同步方式,在批处理设置中交替进行生成和训练,每个训练批次中的rollout由相同(或最新)的模型生成。这虽然稳定了RL训练,但存在严重的系统级低效问题。生成必须等待批次中最长输出完成后才能进行模型更新,导致GPU利用率不足。我们提出AReaL,一个完全异步的强化学习系统,将生成与训练完全解耦。AReaL中的rollout工作器持续生成新输出而无需等待,训练工作器则在收集到一批数据后立即更新模型。AReaL还包含一系列系统级优化,显著提高了GPU利用率。为稳定RL训练,AReaL平衡rollout和训练工作器的工作负载以控制数据陈旧度,并采用了一种陈旧度增强PPO变体来更好地处理过时的训练样本。在数学和代码推理基准上的大量实验表明,与使用相同GPU数量的最佳同步系统相比,AReaL实现了高达2.57倍的训练加速,同时匹配甚至提升了最终性能。AReaL的代码可在https://github.com/inclusionAI/AReaL/获取。
查看原文
查看缓存全文

缓存时间: 2026/07/02 15:44

论文页面 - AReaL: 面向语言推理的大规模异步强化学习系统

来源:https://huggingface.co/papers/2505.24298 发布于 2025 年 5 月 30 日

摘要

AReaL 是一个完全异步的强化学习系统,它将生成与训练解耦,从而在推理任务上实现更高的 GPU 利用率以及高达 2.57 倍的大语言模型训练加速。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 已成为训练大语言模型 (LLMs) 的热门范式,特别是在推理任务中。针对 LLMs 的有效 RL 需要大量并行化,并对高效训练系统提出了迫切需求。现有的大规模 LLM RL 系统大多采用同步方式,即在批量设置中交替进行生成和训练,每个训练批次中的 rollout (https://huggingface.co/papers?q=rollouts) 由相同(或最新)的模型生成。这虽然稳定了 RL 训练,但存在严重的系统级低效问题。生成过程必须等待批次中最长的输出完成之后才能进行模型更新 (https://huggingface.co/papers?q=model%20update),导致 GPU 利用率不足。我们提出了 AReaL,一个完全异步的 RL 系统,将生成与训练彻底解耦。AReaL 中的 rollout 工作节点持续生成新输出而无需等待,同时训练工作节点在收集到一批数据后立即更新模型。AReaL 还整合了一系列系统级优化,从而大幅提升 GPU 利用率 (https://huggingface.co/papers?q=GPU%20utilization)。为了稳定 RL 训练,AReaL 平衡了 rollout 与训练工作节点的负载以控制数据陈旧度,并采用一种增强陈旧度的 PPO (https://huggingface.co/papers?q=PPO) 变体来更好地处理过时的训练样本。在数学和代码推理基准上的大量实验表明,与使用相同 GPU 数量的最佳同步系统相比,AReaL 实现了高达 2.57 倍的训练加速,同时最终性能相当甚至更优。AReaL 的代码可在 https://github.com/inclusionAI/AReaL/ 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2505.24298) 查看 PDF (https://arxiv.org/pdf/2505.24298) GitHub 5.43k (https://github.com/inclusionAI/AReaL) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2505.24298)

在你的 agent 中获取此论文:

hf papers read 2505\.24298

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 6 个

inclusionAI/AReaL-boba-2-8B 文本生成 • 更新于 2025 年 6 月 13 日 • 292 • 28 (https://huggingface.co/inclusionAI/AReaL-boba-2-8B)

inclusionAI/AReaL-boba-2-14B 文本生成 • 更新于 2025 年 6 月 10 日 • 109 • 22 (https://huggingface.co/inclusionAI/AReaL-boba-2-14B)

inclusionAI/AReaL-boba-2-8B-Open 文本生成 • 更新于 2025 年 6 月 4 日 • 93 • 20 (https://huggingface.co/inclusionAI/AReaL-boba-2-8B-Open)

inclusionAI/AReaL-boba-2-14B-Open 文本生成 • 更新于 2025 年 6 月 4 日 • 110 • 20 (https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open)

浏览 6 个引用此论文的模型 (https://huggingface.co/models?other=arxiv:2505.24298)

引用此论文的数据集 1 个

inclusionAI/AReaL-tau2-data 预览 • 更新于 3 月 2 日 • 474 • 13 (https://huggingface.co/datasets/inclusionAI/AReaL-tau2-data)

引用此论文的 Spaces 1 个

包含此论文的收藏集 5 个

浏览 5 个包含此论文的收藏集 (https://huggingface.co/collections?paper=2505.24298)

相似文章

自适应潜在智能体推理

arXiv cs.CL

本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。

ARES:可扩展LLM强化学习的自动评估标准合成

arXiv cs.CL

ARES提出了一种框架,能够从预训练文档中自动构建基于评估标准的强化学习数据,生成问答对和加权评估标准,从而为开放式的LLM回答提供实例级别的奖励监督,在多维开放式任务上优于现有方法。