AstraFlow:面向数据流的智能体大语言模型强化学习系统

Hugging Face Daily Papers 论文

摘要

AstraFlow是一个面向数据流的强化学习系统,支持智能体大语言模型的高效多策略协同训练与弹性扩展,训练速度相比现有系统提升2.7倍。

强化学习(RL)越来越多地被用于提升大语言模型的推理、编码和工具使用能力,但面向智能体(agentic)的强化学习仍然成本高昂。将强化学习扩展到智能体大语言模型需要支持复杂的任务负载,包括多策略协同训练,同时高效利用弹性、异构和跨区域的计算资源。现有的LLM强化学习系统具备其中部分能力,但每项新扩展往往需要专门的系统工程支持。这一负担源于以训练器为中心的控制架构以及缺乏对RL系统组件的有原则性抽象。为解决这些限制,我们提出AstraFlow,一个面向数据流的RL系统,用有原则的组件抽象取代了传统的以训练器为中心的控制。在AstraFlow中,回滚服务、数据流管理和训练被解耦为自主组件,使系统能够原生支持复杂的多策略智能体RL任务负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和AgentBench任务负载上评估AstraFlow,结果表明,同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行以及可组合的数据算法。在多策略协同训练中,AstraFlow在实现与现有RL系统相当或更优准确率的同时,将训练速度提升了2.7倍。
查看原文
查看缓存全文

缓存时间: 2026/05/19 18:33

论文页面 - AstraFlow:面向数据流的强化学习,用于智能体大语言模型

来源:https://huggingface.co/papers/2605.15565

摘要

AstraFlow 是一个面向数据流的强化学习系统,它能够为大型语言模型智能体实现高效的多策略协作训练,并在多种计算资源间实现弹性扩展。

强化学习(https://huggingface.co/papers?q=Reinforcement%20learning) 越来越多地被用于提升大型语言模型(https://huggingface.co/papers?q=large%20language%20models) 的推理、编码和工具使用能力,但智能体强化学习(https://huggingface.co/papers?q=agentic%20RL) 仍然极其昂贵。将强化学习扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练(https://huggingface.co/papers?q=multi-policy%20collaborative%20training),同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM 强化学习系统支持其中部分功能,但每项新的扩展往往需要专门的系统工程投入。这种负担源于以训练器为中心的控制(https://huggingface.co/papers?q=trainer-centered%20control) 架构,以及缺乏对强化学习系统组件原则性的抽象。为了解决这些局限性,我们提出了 AstraFlow,一个面向数据流的强化学习系统,它用原则性的组件抽象(https://huggingface.co/papers?q=component%20abstractions) 取代了传统的以训练器为中心的控制(https://huggingface.co/papers?q=trainer-centered%20control)。在 AstraFlow 中,推理服务(https://huggingface.co/papers?q=rollout%20services)、数据流管理(https://huggingface.co/papers?q=dataflow%20management) 和训练(https://huggingface.co/papers?q=training) 被解耦为独立的组件,使系统能够原生支持复杂的多策略智能体强化学习(https://huggingface.co/papers?q=agentic%20RL) 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上对 AstraFlow 进行了评估,结果表明,同一套系统无需系统级代码修改,即可支持多策略训练(https://huggingface.co/papers?q=training)、弹性扩展(https://huggingface.co/papers?q=elastic%20scaling)、异构跨区域执行以及可组合的数据算法。在多策略协作训练(https://huggingface.co/papers?q=multi-policy%20collaborative%20training) 中,AstraFlow 在达到与现有强化学习系统相当或更高精度的同时,将训练(https://huggingface.co/papers?q=training) 时间加速了 2.7 倍。

查看 arXiv 页面(https://arxiv.org/abs/2605.15565)查看 PDF(https://arxiv.org/pdf/2605.15565)项目页面(https://infini-ai-lab.github.io/astraflow/)GitHub5(https://github.com/Infini-AI-Lab/astraflow)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15565)

在你的智能体中获取这篇论文:

hf papers read 2605.15565

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15565,以便从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15565,以便从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15565,以便从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便从此页面链接。

相似文章

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。

AgentJet:一个面向智能体强化学习的灵活群组训练框架

arXiv cs.AI

AgentJet 是一个面向大语言模型智能体强化学习的分布式群组训练框架,它将智能体运行与模型优化解耦,支持异构多智能体强化学习、多任务训练、容错以及实时代码迭代,训练速度提升1.5-10倍。该框架还引入了一个自动化研究系统,能够在大型集群上自主进行为期数天的强化学习研究。

SkillFlow:流程驱动的递归技能演化用于智能体编排

arXiv cs.AI

SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。