AstraFlow：面向数据流的智能体大语言模型强化学习系统

Hugging Face Daily Papers 2026/05/15 00:00 论文

reinforcement-learning agentic-llm dataflow multi-policy elastic-scaling training llm-agents

摘要

AstraFlow是一个面向数据流的强化学习系统，支持智能体大语言模型的高效多策略协同训练与弹性扩展，训练速度相比现有系统提升2.7倍。

强化学习（RL）越来越多地被用于提升大语言模型的推理、编码和工具使用能力，但面向智能体（agentic）的强化学习仍然成本高昂。将强化学习扩展到智能体大语言模型需要支持复杂的任务负载，包括多策略协同训练，同时高效利用弹性、异构和跨区域的计算资源。现有的LLM强化学习系统具备其中部分能力，但每项新扩展往往需要专门的系统工程支持。这一负担源于以训练器为中心的控制架构以及缺乏对RL系统组件的有原则性抽象。为解决这些限制，我们提出AstraFlow，一个面向数据流的RL系统，用有原则的组件抽象取代了传统的以训练器为中心的控制。在AstraFlow中，回滚服务、数据流管理和训练被解耦为自主组件，使系统能够原生支持复杂的多策略智能体RL任务负载，并高效利用多样化的计算资源。我们在数学、代码、搜索和AgentBench任务负载上评估AstraFlow，结果表明，同一系统无需系统级代码更改即可支持多策略训练、弹性扩展、异构跨区域执行以及可组合的数据算法。在多策略协同训练中，AstraFlow在实现与现有RL系统相当或更优准确率的同时，将训练速度提升了2.7倍。

查看原文

查看缓存全文

缓存时间: 2026/05/19 18:33

论文页面 - AstraFlow：面向数据流的强化学习，用于智能体大语言模型

来源：https://huggingface.co/papers/2605.15565

摘要

AstraFlow 是一个面向数据流的强化学习系统，它能够为大型语言模型智能体实现高效的多策略协作训练，并在多种计算资源间实现弹性扩展。

强化学习（https://huggingface.co/papers?q=Reinforcement%20learning）越来越多地被用于提升大型语言模型（https://huggingface.co/papers?q=large%20language%20models）的推理、编码和工具使用能力，但智能体强化学习（https://huggingface.co/papers?q=agentic%20RL）仍然极其昂贵。将强化学习扩展到智能体大语言模型需要支持复杂的工作负载，包括多策略协作训练（https://huggingface.co/papers?q=multi-policy%20collaborative%20training），同时高效利用弹性、异构和跨区域的计算资源。现有的 LLM 强化学习系统支持其中部分功能，但每项新的扩展往往需要专门的系统工程投入。这种负担源于以训练器为中心的控制（https://huggingface.co/papers?q=trainer-centered%20control）架构，以及缺乏对强化学习系统组件原则性的抽象。为了解决这些局限性，我们提出了 AstraFlow，一个面向数据流的强化学习系统，它用原则性的组件抽象（https://huggingface.co/papers?q=component%20abstractions）取代了传统的以训练器为中心的控制（https://huggingface.co/papers?q=trainer-centered%20control）。在 AstraFlow 中，推理服务（https://huggingface.co/papers?q=rollout%20services）、数据流管理（https://huggingface.co/papers?q=dataflow%20management）和训练（https://huggingface.co/papers?q=training）被解耦为独立的组件，使系统能够原生支持复杂的多策略智能体强化学习（https://huggingface.co/papers?q=agentic%20RL）工作负载，并高效利用多样化的计算资源。我们在数学、代码、搜索和 AgentBench 工作负载上对 AstraFlow 进行了评估，结果表明，同一套系统无需系统级代码修改，即可支持多策略训练（https://huggingface.co/papers?q=training）、弹性扩展（https://huggingface.co/papers?q=elastic%20scaling）、异构跨区域执行以及可组合的数据算法。在多策略协作训练（https://huggingface.co/papers?q=multi-policy%20collaborative%20training）中，AstraFlow 在达到与现有强化学习系统相当或更高精度的同时，将训练（https://huggingface.co/papers?q=training）时间加速了 2.7 倍。

查看 arXiv 页面（https://arxiv.org/abs/2605.15565）查看 PDF（https://arxiv.org/pdf/2605.15565）项目页面（https://infini-ai-lab.github.io/astraflow/）GitHub5（https://github.com/Infini-AI-Lab/astraflow）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.15565）

在你的智能体中获取这篇论文：

hf papers read 2605.15565

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15565，以便从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15565，以便从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15565，以便从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集（https://huggingface.co/new-collection）中，以便从此页面链接。

AstraFlow：面向数据流的智能体大语言模型强化学习系统

论文页面 - AstraFlow：面向数据流的强化学习，用于智能体大语言模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

多智能体RL何时能提升LLM工作流？工作流、规模与策略共享的权衡

从动作引导中学习智能体策略

AgentJet：一个面向智能体强化学习的灵活群组训练框架

UniSteer：文本引导的激活空间流匹配实现多功能大语言模型操控

SkillFlow：流程驱动的递归技能演化用于智能体编排

提交意见反馈