面向可扩展多任务强化学习的大决策模型
摘要
本文介绍了LDM-v0,一个在来自数千个多样强化学习环境的轨迹上离线训练的大决策模型,证明了单一的Transformer策略可以在机器人、自动驾驶、库存管理、网络安全、交易和视频游戏等领域匹配特定任务策略的性能。
arXiv:2606.24962v1 公告类型:新
摘要:近期在大规模序列建模方面的进展表明,单个模型可以在高度多样的数据分布中学习有用的表示。受这些进展的启发,我们研究是否可以在大量异构强化学习环境的集合上训练统一的Transformer策略。
我们介绍了LDM-v0,一个在从数千个跨越多个领域和模态的环境收集的轨迹上离线训练的大决策模型。LDM-v0是一个多任务、多模态的Transformer策略,以观察、动作、奖励和终止信号的历史为条件,并通过在离线轨迹上进行监督的下一个动作预测来训练。我们描述了用于构建LDM-v0的环境基础设施、自动化数据生成管道、模型架构和训练方法,并评估了其在多种环境中的性能。我们表明,单个预训练模型在约1000个环境中(包括机器人、自动驾驶、库存管理、网络安全、交易和视频游戏)匹配了独立训练的特定任务参考策略的性能。这些结果证明了使用单个Transformer策略在异构强化学习环境中进行大规模离线预训练的可行性。
查看缓存全文
缓存时间: 2026/06/25 05:08
# 迈向基于大型决策模型的可扩展多任务强化学习
来源:https://arxiv.org/html/2606.24962
###### 摘要
近期大规模序列建模的进展表明,单一模型能够在高度多样化的数据分布中学习有用的表示。受这些进展的启发,我们研究是否可以在大量异构强化学习环境的集合上训练统一的Transformer策略。
我们提出LDM-v0,这是一个大型决策模型,在从数千个跨越多个领域和模态的环境中收集的轨迹上进行离线训练。LDM-v0是一个多任务、多模态的Transformer策略,以观察、动作、奖励和终止信号的历史为条件,并通过离线轨迹上的监督下一个动作预测进行训练。我们描述了用于构建LDM-v0的环境基础设施、自动化数据生成管道、模型架构和训练方法,并在多种环境中评估其性能。我们表明,一个单一的预训练模型在约1000个环境中(包括机器人、自动驾驶、库存管理、网络安全、交易和视频游戏)能够与独立训练的特定任务参考策略的性能相匹配。这些结果证明了在异构强化学习环境中使用单一Transformer策略进行大规模离线预训练的可行性。
## 1 引言
强化学习(RL)为序列决策提供了一个通用框架,并在游戏、机器人、资源优化和控制等领域取得了令人瞩目的成果。尽管取得了这些进展,但在实际环境中应用强化学习仍然困难。现代强化学习系统通常需要大量的环境交互、精心的奖励工程、特定领域的架构以及大量的超参数调优。因此,许多成功的应用严重依赖于专家知识和特定任务的设计选择。
离线强化学习和离线到在线强化学习通过利用先前收集的轨迹来减少昂贵的在线交互,部分解决了这些限制。然而,为新环境选择和适配合适的强化学习算法仍然具有挑战性(Nie 等人,2022 (https://arxiv.org/html/2606.24962#bib.bib14))。这些困难促使人们开发更通用和自动化的强化学习方法。
与此同时,在多样化数据集上训练的大规模序列模型已经改变了自然语言处理,并且最近也改变了计算机视觉和多模态学习。在强化学习中,诸如决策Transformer(Chen 等人,2021 (https://arxiv.org/html/2606.24962#bib.bib4))等序列建模方法表明,策略可以表示为轨迹上的自回归模型。这些结果提出了一个重要问题:能否将多领域的离线强化学习轨迹整合到一个单一的可扩展Transformer策略中,同时保持跨多个领域的强大任务性能?一个关键挑战是多领域强化学习生态系统碎片化且难以统一。
在本工作中,我们通过构建统一的多领域强化学习基础设施来探索这一方向,利用它生成大规模轨迹并训练LDM-v0——一个实例化为单一Transformer策略的大型决策模型。LDM-v0是一个多任务和多模态模型,以过去的观察、动作、奖励和当前观察为条件,以预测未来的动作。我们的主要目标不是研究分布外泛化,而是研究单一Transformer策略是否能够大规模地联合建模多样化的强化学习行为。
我们展示了用于训练LDM-v0的环境基础设施、大规模强化学习数据集生成管道、模型架构和训练方法,并评估了其在多样化环境集合中的性能。更广泛地说,我们将LDM-v0视为迈向可扩展的预训练强化学习系统的一步。
## 2 相关工作
Transformer架构(Vaswani 等人,2017 (https://arxiv.org/html/2606.24962#bib.bib20))最近已成为强化学习的重要框架,这得益于它们在大规模序列建模中的成功(Brown 等人,2020 (https://arxiv.org/html/2606.24962#bib.bib3))。诸如决策Transformer(Chen 等人,2021 (https://arxiv.org/html/2606.24962#bib.bib4))和轨迹Transformer(Janner 等人,2021 (https://arxiv.org/html/2606.24962#bib.bib10))等序列建模方法证明了强化学习策略可以被表述为轨迹上的自回归模型,而后续工作进一步探索了Transformer在强化学习中的作用(Agarwal 等人,2023 (https://arxiv.org/html/2606.24962#bib.bib1))。
我们的工作也与元强化学习相关。传统的元强化学习方法(Finn 等人,2017 (https://arxiv.org/html/2606.24962#bib.bib6); Duan 等人,2016 (https://arxiv.org/html/2606.24962#bib.bib5); Beck 等人,2023 (https://arxiv.org/html/2606.24962#bib.bib2))旨在学习能够快速跨任务适应的智能体,通常通过显式的任务分布、循环策略或基于梯度的适应。最近,上下文强化学习方法研究了Transformer是否可以直接从轨迹上下文中学习适应策略(Laskin 等人,2023 (https://arxiv.org/html/2606.24962#bib.bib12); Lee 等人,2023 (https://arxiv.org/html/2606.24962#bib.bib13); Team 等人,2023 (https://arxiv.org/html/2606.24962#bib.bib19); Grigsby 等人,2023 (https://arxiv.org/html/2606.24962#bib.bib8); 2024 (https://arxiv.org/html/2606.24962#bib.bib9); Kumar 等人,(https://arxiv.org/html/2606.24962#bib.bib11); Sridhar 等人,2024 (https://arxiv.org/html/2606.24962#bib.bib18); Petrov 等人,2024 (https://arxiv.org/html/2606.24962#bib.bib15); Raparthy 等人,2023 (https://arxiv.org/html/2606.24962#bib.bib16))。特别地,Lee 等人 (2023 (https://arxiv.org/html/2606.24962#bib.bib13)) 将元强化学习视为监督预训练,其中Transformer以查询状态和先前交互的上下文数据集为条件来预测动作。这一观点在理论上也与贝叶斯后验采样相关联(Wang 等人,2024 (https://arxiv.org/html/2606.24962#bib.bib21))。
LDM-v0最直接受到Gato(Reed 等人,2022 (https://arxiv.org/html/2606.24962#bib.bib17))和监督上下文强化学习预训练(Lee 等人,2023 (https://arxiv.org/html/2606.24962#bib.bib13))的启发。与先前将强化学习与语言、机器人技术或互联网规模监督数据相结合的通用Transformer智能体(Reed 等人,2022 (https://arxiv.org/html/2606.24962#bib.bib17); Gallouédec 等人,2024 (https://arxiv.org/html/2606.24962#bib.bib7))不同,LDM-v0专注于在高度异构的强化学习生态系统上进行可扩展的强化学习预训练。我们的工作强调多领域环境集成(见表1 (https://arxiv.org/html/2606.24962#S2.T1))、在数千个Gym/Gymnasium兼容环境中的大规模轨迹生成,以及紧凑的转移级别序列建模。
表1:跨多领域强化学习环境训练的大规模Transformer策略比较。表格报告了所使用的强化学习库数量、所覆盖任务或环境的大致数量、所考虑的输入/输出模态,以及用于编码每个轨迹时间步的token数量。对于Gato,这个数字随观察和动作空间的维度而变化,因为不同维度被分别token化;该论文报告单个图像观察需要超过100个token。
## 3 方法
LDM-v0的目标是在一个大型且异构的强化学习环境集合上训练单一策略模型。我们的方法将自动参考策略监督与统一的序列建模架构相结合:首先通过训练特定任务的强化学习智能体并保留高性能策略作为参考来生成监督策略数据,然后训练一个Transformer策略,使其能够根据交互历史和当前观察来预测参考动作。
### 3.1 自动参考策略监督
在多样化的环境中生成高质量轨迹是具有挑战性的,因为没有单一的强化学习算法或超参数配置能在所有领域都表现良好。因此,我们将数据集构建视为一个自动强化学习问题:对于每个环境系列,管道会经验性地对候选算法和配置进行排名,训练强大的特定任务参考策略,记录其轨迹,并用最终策略动作对收集的观察进行标注。因此,LDM-v0被训练用于模仿强大的特定任务策略,而不是探索性动作。使用基于性能的过滤去除低质量运行;实现细节在第4节 (https://arxiv.org/html/2606.24962#S4)中给出。
### 3.2 LDM-v0架构
LDM-v0的主要设计目标是支持跨不同强化学习环境的统一训练,包括具有不同观察模态、动作空间和时间动态的领域。架构概览如图1 (https://arxiv.org/html/2606.24962#S3.F1)所示。
LDM-v0接收交互历史和当前观察作为输入。观察、先前的动作、奖励和终止信号使用特定模态的编码器进行编码,合并为转移级别嵌入,由仅解码器的Transformer主干处理,并解码为动作预测。
交互历史(与环境):过去的观察、过去的动作、过去的奖励、过去的终止/截断信号;当前环境状态:观察;LDM-v0;编码器:观察编码(连续、多维离散、图像),动作编码(连续、多维离散),奖励编码,终止/截断编码;Transformer:Llama主干(从头训练);动作解码器:线性层,动作,参考动作,交叉熵损失;图1:LDM-v0的架构。LDM-v0接收交互历史和当前观察,对每个模态进行编码,将其合并为转移级别嵌入(包含时间步t的观察和时间步t-1的动作/奖励/完成信号),使用Llama主干进行处理,并解码预测的动作。在训练期间,使用强大的特定任务参考策略对预测进行监督。
### 3.3 Token化和嵌入
LDM-v0将多模态环境交互转换为统一的token化表示,兼容Transformer序列建模。
- 连续输入经过μ-law编码,离散化为1024个区间,并通过学习的嵌入表进行映射。
- 离散输入通过查找表进行嵌入。
- 图像观察被调整为统一分辨率(64,64,3),并使用卷积编码器进行编码。
每个观察的不同维度被堆叠成观察嵌入,最大观察维度为128(对于较小的观察进行填充)。多维动作也是如此,最大动作维度为28。然后,观察/动作/奖励/终止嵌入被对齐(观察与先前的动作/奖励/终止信号对齐;如果是第一个观察则填充),堆叠并通过线性层处理为转移级别的元token。
这种表示将多模态环境交互映射到与单一Transformer主干兼容的共享潜在序列表示中。与按维度进行token化的方法相比(Reed 等人,2022 (https://arxiv.org/html/2606.24962#bib.bib17)),这种紧凑的转移级别打包还减少了序列长度,并允许在固定的Transformer上下文预算内实现更长的交互历史。
### 3.4 主干
LDM-v0使用基于Llama架构的仅解码器Transformer主干。主干自回归地处理转移级别嵌入,并生成用于动作预测的上下文化表示。
该模型完全从头开始在第4节 (https://arxiv.org/html/2606.24962#S4)描述的数据集上进行训练,因为在初步实验中我们没有观察到从语言模型检查点初始化带来的可测量改进。
### 3.5 动作解码器和训练目标
Transformer输出传递给一个线性动作解码器,该解码器预测每个动作维度在离散化动作区间上的logits。对于连续动作,解码器预测相应的离散化区间;对于离散动作,它预测相应的动作类别。
LDM-v0被训练用于预测从每个环境独立训练的强化学习智能体生成的轨迹中的参考动作(在第4.2节 (https://arxiv.org/html/2606.24962#S4.SS2)中描述)。训练使用离散化动作上的标准交叉熵损失。
形式上,模型学习一个自回归策略,形式为:
\(a_t = \mathrm{LDM}\Big((o_i)_{i=1}^T, (a_i, r_i, d_i)_{i=1}^{T-1}\Big)\),
其中 \(o_i\), \(a_i\), \(r_i\), 和 \(d_i\) 分别表示观察、动作、奖励和终止指示器。模型自回归地预测动作,以保留在上下文窗口内的轨迹历史为条件。
## 4 实验设置
### 4.1 环境
公共强化学习环境为大规模异构策略训练提供了天然的测试平台:它们涵盖了广泛的控制、优化和序列决策问题,并且在观察模态、动作空间、时间跨度和奖励结构方面差异很大。我们从实现OpenAI Gym或Gymnasium兼容接口的公开GitHub仓库中收集训练环境。尽管这些环境共享一个高级API,但它们通常依赖于不同的Python版本、包生态系统和模拟器依赖项,这在实际中使得统一的大规模训练变得困难。
为了应对这一挑战,我们开发了一个内部环境编排框架,将每个环境库封装在独立的Docker容器中,并暴露一个与现代Gymnasium接口兼容的统一交互API。该基础设施支持与多领域强化学习环境的可扩展和可复现交互,同时保持与遗留依赖项的兼容性。
获取、验证、容器化和将环境仓库集成到框架中的过程部分自动化。使用此管道,我们收集了146个环境库,对应约15000个单独的环境。
已集成库的列表及其对应的环境数量总结在附录A (https://arxiv.org/html/2606.24962#A1)中。我们注意到,环境数量本身不一定代表行为多样性,因为某些库包含许多紧密相关的任务,而另一些库则暴露较少但高度可配置的环境。
### 4.2 参考策略数据生成
我们如下实例化第3.1节 (https://arxiv.org/html/2606.24962#S3.SS1)中描述的自动参考策略监督管道。
我们定义了一个来自Stable-Baselines3和SB3-Contrib的固定候选算法/配置对池,包括A2C、ARS、DDPG、DQN、PPO、QR-DQN、SAC、TD3、TQC和TRPO。候选算法使用默认库超参数或预定义的替代方案;完整集合在附录C (https://arxiv.org/html/2606.24962#A3)中报告。仅当候选算法与环境兼容时才进行评估。(续上)相似文章
表示学习助力可扩展多任务深度强化学习
本文认为,表示学习(而非基于模型的规划)是可扩展多任务深度强化学习的关键。文章介绍了MR.Q,一种简单的无模型算法,通过辅助预测目标,在多种连续控制任务上优于之前基于世界模型的方法。
从受训者到训练者:面向多智能体推理的强化学习的LLM设计训练环境
本文提出了LLM-as-Environment-Engineer框架,其中策略模型通过分析失败案例自动重新设计强化学习训练环境,并引入MAPF-FrozenLake作为可控测试平台。该框架使用Qwen3-4B模型,性能优于GPT和Gemini等更大规模模型,表明策略学习提升了模型诊断自身弱点的能力。
通过扩散策略优化扩展世界模型强化学习
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。
多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。
一种基于深度强化学习(DRL)的Transformer方法用于解决开放车间调度问题
介绍了一种基于Transformer的调度策略,该策略通过强化学习训练,用于开放车间调度问题,展示了在小规模实例上训练的模型能够泛化到更大规模的问题,并与经典调度启发式算法竞争。