AstraFlow:面向数据流的智能体大语言模型强化学习系统
摘要
AstraFlow是一个面向数据流的强化学习系统,支持智能体大语言模型的高效多策略协同训练与弹性扩展,训练速度相比现有系统提升2.7倍。
查看缓存全文
缓存时间: 2026/05/19 18:33
论文页面 - AstraFlow:面向数据流的强化学习,用于智能体大语言模型
来源:https://huggingface.co/papers/2605.15565
摘要
AstraFlow 是一个面向数据流的强化学习系统,它能够为大型语言模型智能体实现高效的多策略协作训练,并在多种计算资源间实现弹性扩展。
强化学习(https://huggingface.co/papers?q=Reinforcement%20learning) 越来越多地被用于提升大型语言模型(https://huggingface.co/papers?q=large%20language%20models) 的推理、编码和工具使用能力,但智能体强化学习(https://huggingface.co/papers?q=agentic%20RL) 仍然极其昂贵。将强化学习扩展到智能体大语言模型需要支持复杂的工作负载,包括多策略协作训练(https://huggingface.co/papers?q=multi-policy%20collaborative%20training),同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM 强化学习系统支持其中部分功能,但每项新的扩展往往需要专门的系统工程投入。这种负担源于以训练器为中心的控制(https://huggingface.co/papers?q=trainer-centered%20control) 架构,以及缺乏对强化学习系统组件原则性的抽象。为了解决这些局限性,我们提出了 AstraFlow,一个面向数据流的强化学习系统,它用原则性的组件抽象(https://huggingface.co/papers?q=component%20abstractions) 取代了传统的以训练器为中心的控制(https://huggingface.co/papers?q=trainer-centered%20control)。在 AstraFlow 中,推理服务(https://huggingface.co/papers?q=rollout%20services)、数据流管理(https://huggingface.co/papers?q=dataflow%20management) 和训练(https://huggingface.co/papers?q=training) 被解耦为独立的组件,使系统能够原生支持复杂的多策略智能体强化学习(https://huggingface.co/papers?q=agentic%20RL) 工作负载,并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上对 AstraFlow 进行了评估,结果表明,同一套系统无需系统级代码修改,即可支持多策略训练(https://huggingface.co/papers?q=training)、弹性扩展(https://huggingface.co/papers?q=elastic%20scaling)、异构跨区域执行以及可组合的数据算法。在多策略协作训练(https://huggingface.co/papers?q=multi-policy%20collaborative%20training) 中,AstraFlow 在达到与现有强化学习系统相当或更高精度的同时,将训练(https://huggingface.co/papers?q=training) 时间加速了 2.7 倍。
查看 arXiv 页面(https://arxiv.org/abs/2605.15565)查看 PDF(https://arxiv.org/pdf/2605.15565)项目页面(https://infini-ai-lab.github.io/astraflow/)GitHub5(https://github.com/Infini-AI-Lab/astraflow)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15565)
在你的智能体中获取这篇论文:
hf papers read 2605.15565
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.15565,以便从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15565,以便从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.15565,以便从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便从此页面链接。
相似文章
多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
AgentJet:一个面向智能体强化学习的灵活群组训练框架
AgentJet 是一个面向大语言模型智能体强化学习的分布式群组训练框架,它将智能体运行与模型优化解耦,支持异构多智能体强化学习、多任务训练、容错以及实时代码迭代,训练速度提升1.5-10倍。该框架还引入了一个自动化研究系统,能够在大型集群上自主进行为期数天的强化学习研究。
UniSteer:文本引导的激活空间流匹配实现多功能大语言模型操控
UniSteer 提出了一种文本引导的激活流匹配方法,在激活空间中学习通用条件速度场,无需特定任务干预模块即可实现多功能的 LLM 行为控制与分类任务。
SkillFlow:流程驱动的递归技能演化用于智能体编排
SkillFlow 提出了一种基于流程驱动的递归技能演化框架,用于基于大语言模型的智能体编排,采用 Tempered Trajectory Balance 来防止策略崩溃并提供透明的信用分配。在 14 个数据集上的实验表明,在问答、数学、代码和决策制定任务中,该框架显著优于基线方法。