AReaL: 用于语言推理的大规模异步强化学习系统

Papers with Code Trending 2025/05/30 07:18 论文

摘要

AReaL是一个用于LLM推理的完全异步强化学习系统，相比同步系统实现了高达2.57倍的训练加速，同时保持或提升了性能。它将生成与训练解耦以提高GPU利用率，并包含诸如staleness-enhanced PPO等优化。

强化学习（RL）已成为训练大型语言模型（LLM）的热门范式，尤其是用于推理任务。有效的LLM强化学习需要大规模并行化，并对高效训练系统提出了迫切需求。现有的大规模LLM强化学习系统大多采用同步方式，在批处理设置中交替进行生成和训练，每个训练批次中的rollout由相同（或最新）的模型生成。这虽然稳定了RL训练，但存在严重的系统级低效问题。生成必须等待批次中最长输出完成后才能进行模型更新，导致GPU利用率不足。我们提出AReaL，一个完全异步的强化学习系统，将生成与训练完全解耦。AReaL中的rollout工作器持续生成新输出而无需等待，训练工作器则在收集到一批数据后立即更新模型。AReaL还包含一系列系统级优化，显著提高了GPU利用率。为稳定RL训练，AReaL平衡rollout和训练工作器的工作负载以控制数据陈旧度，并采用了一种陈旧度增强PPO变体来更好地处理过时的训练样本。在数学和代码推理基准上的大量实验表明，与使用相同GPU数量的最佳同步系统相比，AReaL实现了高达2.57倍的训练加速，同时匹配甚至提升了最终性能。AReaL的代码可在https://github.com/inclusionAI/AReaL/获取。

查看原文

查看缓存全文

缓存时间: 2026/07/02 15:44

论文页面 - AReaL: 面向语言推理的大规模异步强化学习系统

来源：https://huggingface.co/papers/2505.24298 发布于 2025 年 5 月 30 日

摘要

AReaL 是一个完全异步的强化学习系统，它将生成与训练解耦，从而在推理任务上实现更高的 GPU 利用率以及高达 2.57 倍的大语言模型训练加速。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 已成为训练大语言模型 (LLMs) 的热门范式，特别是在推理任务中。针对 LLMs 的有效 RL 需要大量并行化，并对高效训练系统提出了迫切需求。现有的大规模 LLM RL 系统大多采用同步方式，即在批量设置中交替进行生成和训练，每个训练批次中的 rollout (https://huggingface.co/papers?q=rollouts) 由相同（或最新）的模型生成。这虽然稳定了 RL 训练，但存在严重的系统级低效问题。生成过程必须等待批次中最长的输出完成之后才能进行模型更新 (https://huggingface.co/papers?q=model%20update)，导致 GPU 利用率不足。我们提出了 AReaL，一个完全异步的 RL 系统，将生成与训练彻底解耦。AReaL 中的 rollout 工作节点持续生成新输出而无需等待，同时训练工作节点在收集到一批数据后立即更新模型。AReaL 还整合了一系列系统级优化，从而大幅提升 GPU 利用率 (https://huggingface.co/papers?q=GPU%20utilization)。为了稳定 RL 训练，AReaL 平衡了 rollout 与训练工作节点的负载以控制数据陈旧度，并采用一种增强陈旧度的 PPO (https://huggingface.co/papers?q=PPO) 变体来更好地处理过时的训练样本。在数学和代码推理基准上的大量实验表明，与使用相同 GPU 数量的最佳同步系统相比，AReaL 实现了高达 2.57 倍的训练加速，同时最终性能相当甚至更优。AReaL 的代码可在 https://github.com/inclusionAI/AReaL/ 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2505.24298) 查看 PDF (https://arxiv.org/pdf/2505.24298) GitHub 5.43k (https://github.com/inclusionAI/AReaL) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2505.24298)

在你的 agent 中获取此论文：

hf papers read 2505\.24298

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 6 个

inclusionAI/AReaL-boba-2-8B 文本生成 • 更新于 2025 年 6 月 13 日 • 292 • 28 (https://huggingface.co/inclusionAI/AReaL-boba-2-8B)

inclusionAI/AReaL-boba-2-14B 文本生成 • 更新于 2025 年 6 月 10 日 • 109 • 22 (https://huggingface.co/inclusionAI/AReaL-boba-2-14B)

inclusionAI/AReaL-boba-2-8B-Open 文本生成 • 更新于 2025 年 6 月 4 日 • 93 • 20 (https://huggingface.co/inclusionAI/AReaL-boba-2-8B-Open)

inclusionAI/AReaL-boba-2-14B-Open 文本生成 • 更新于 2025 年 6 月 4 日 • 110 • 20 (https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open)

浏览 6 个引用此论文的模型 (https://huggingface.co/models?other=arxiv:2505.24298)

引用此论文的数据集 1 个

inclusionAI/AReaL-tau2-data 预览 • 更新于 3 月 2 日 • 474 • 13 (https://huggingface.co/datasets/inclusionAI/AReaL-tau2-data)

引用此论文的 Spaces 1 个

包含此论文的收藏集 5 个

浏览 5 个包含此论文的收藏集 (https://huggingface.co/collections?paper=2505.24298)

AReaL: 用于语言推理的大规模异步强化学习系统

论文页面 - AReaL: 面向语言推理的大规模异步强化学习系统

摘要

引用此论文的模型 6 个

inclusionAI/AReaL-boba-2-8B 文本生成 • 更新于 2025 年 6 月 13 日 • 292 • 28 (https://huggingface.co/inclusionAI/AReaL-boba-2-8B)

inclusionAI/AReaL-boba-2-14B 文本生成 • 更新于 2025 年 6 月 10 日 • 109 • 22 (https://huggingface.co/inclusionAI/AReaL-boba-2-14B)

inclusionAI/AReaL-boba-2-8B-Open 文本生成 • 更新于 2025 年 6 月 4 日 • 93 • 20 (https://huggingface.co/inclusionAI/AReaL-boba-2-8B-Open)

inclusionAI/AReaL-boba-2-14B-Open 文本生成 • 更新于 2025 年 6 月 4 日 • 110 • 20 (https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open)

引用此论文的数据集 1 个

inclusionAI/AReaL-tau2-data 预览 • 更新于 3 月 2 日 • 474 • 13 (https://huggingface.co/datasets/inclusionAI/AReaL-tau2-data)

引用此论文的 Spaces 1 个

包含此论文的收藏集 5 个

相似文章

REAL: 一种用于LLMs长期记忆管理的推理增强图框架

@jiqizhixin：太棒了！关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…

自适应潜在智能体推理

ARES：可扩展LLM强化学习的自动评估标准合成

LEAD：用于大型语言模型的长度高效自适应与动态推理

提交意见反馈