AReaL: 用于语言推理的大规模异步强化学习系统
摘要
AReaL是一个用于LLM推理的完全异步强化学习系统,相比同步系统实现了高达2.57倍的训练加速,同时保持或提升了性能。它将生成与训练解耦以提高GPU利用率,并包含诸如staleness-enhanced PPO等优化。
查看缓存全文
缓存时间: 2026/07/02 15:44
论文页面 - AReaL: 面向语言推理的大规模异步强化学习系统
来源:https://huggingface.co/papers/2505.24298 发布于 2025 年 5 月 30 日
摘要
AReaL 是一个完全异步的强化学习系统,它将生成与训练解耦,从而在推理任务上实现更高的 GPU 利用率以及高达 2.57 倍的大语言模型训练加速。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 已成为训练大语言模型 (LLMs) 的热门范式,特别是在推理任务中。针对 LLMs 的有效 RL 需要大量并行化,并对高效训练系统提出了迫切需求。现有的大规模 LLM RL 系统大多采用同步方式,即在批量设置中交替进行生成和训练,每个训练批次中的 rollout (https://huggingface.co/papers?q=rollouts) 由相同(或最新)的模型生成。这虽然稳定了 RL 训练,但存在严重的系统级低效问题。生成过程必须等待批次中最长的输出完成之后才能进行模型更新 (https://huggingface.co/papers?q=model%20update),导致 GPU 利用率不足。我们提出了 AReaL,一个完全异步的 RL 系统,将生成与训练彻底解耦。AReaL 中的 rollout 工作节点持续生成新输出而无需等待,同时训练工作节点在收集到一批数据后立即更新模型。AReaL 还整合了一系列系统级优化,从而大幅提升 GPU 利用率 (https://huggingface.co/papers?q=GPU%20utilization)。为了稳定 RL 训练,AReaL 平衡了 rollout 与训练工作节点的负载以控制数据陈旧度,并采用一种增强陈旧度的 PPO (https://huggingface.co/papers?q=PPO) 变体来更好地处理过时的训练样本。在数学和代码推理基准上的大量实验表明,与使用相同 GPU 数量的最佳同步系统相比,AReaL 实现了高达 2.57 倍的训练加速,同时最终性能相当甚至更优。AReaL 的代码可在 https://github.com/inclusionAI/AReaL/ 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2505.24298) 查看 PDF (https://arxiv.org/pdf/2505.24298) GitHub 5.43k (https://github.com/inclusionAI/AReaL) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2505.24298)
在你的 agent 中获取此论文:
hf papers read 2505\.24298
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 6 个
inclusionAI/AReaL-boba-2-8B 文本生成 • 更新于 2025 年 6 月 13 日 • 292 • 28 (https://huggingface.co/inclusionAI/AReaL-boba-2-8B)
inclusionAI/AReaL-boba-2-14B 文本生成 • 更新于 2025 年 6 月 10 日 • 109 • 22 (https://huggingface.co/inclusionAI/AReaL-boba-2-14B)
inclusionAI/AReaL-boba-2-8B-Open 文本生成 • 更新于 2025 年 6 月 4 日 • 93 • 20 (https://huggingface.co/inclusionAI/AReaL-boba-2-8B-Open)
inclusionAI/AReaL-boba-2-14B-Open 文本生成 • 更新于 2025 年 6 月 4 日 • 110 • 20 (https://huggingface.co/inclusionAI/AReaL-boba-2-14B-Open)
浏览 6 个引用此论文的模型 (https://huggingface.co/models?other=arxiv:2505.24298)
引用此论文的数据集 1 个
inclusionAI/AReaL-tau2-data 预览 • 更新于 3 月 2 日 • 474 • 13 (https://huggingface.co/datasets/inclusionAI/AReaL-tau2-data)
引用此论文的 Spaces 1 个
包含此论文的收藏集 5 个
浏览 5 个包含此论文的收藏集 (https://huggingface.co/collections?paper=2505.24298)
相似文章
REAL: 一种用于LLMs长期记忆管理的推理增强图框架
REAL是一种用于LLMs长期记忆管理的推理增强图框架,它利用时间与置信度感知的有向属性图,采用非破坏性时间更新和混合波束搜索检索,平均性能提升22.72%。
@jiqizhixin:太棒了!关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…
一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。
自适应潜在智能体推理
本文介绍了自适应潜在智能体推理(ALAR),一种针对LLM智能体的双模式框架,它使用紧凑的潜在推理处理常规轮次,并选择性地升级为显式思维链以应对更困难的决策,实现了高达84.6%的令牌减少,同时保持任务准确性。
ARES:可扩展LLM强化学习的自动评估标准合成
ARES提出了一种框架,能够从预训练文档中自动构建基于评估标准的强化学习数据,生成问答对和加权评估标准,从而为开放式的LLM回答提供实例级别的奖励监督,在多维开放式任务上优于现有方法。
LEAD:用于大型语言模型的长度高效自适应与动态推理
LEAD通过使用正确性-效率权衡的在线校准和自适应的问题特定长度目标,在训练过程中动态调整推理效率,提高了数学推理的准确性并减少了输出长度。