表示学习助力可扩展多任务深度强化学习
摘要
本文认为,表示学习(而非基于模型的规划)是可扩展多任务深度强化学习的关键。文章介绍了MR.Q,一种简单的无模型算法,通过辅助预测目标,在多种连续控制任务上优于之前基于世界模型的方法。
arXiv:2606.05555v1 公告类型:新
摘要:将强化学习扩展到多样化的多任务场景仍是一个核心挑战。尽管基于模型的强化学习近期取得显著进展,但其依赖规划与复杂的训练流程,使得哪些组件对可扩展性至关重要尚不明确。我们重新审视这一问题,认为可扩展多任务强化学习的主要驱动因素并非基于模型的控制,而是\emph{表示学习}。特别是,我们证明了将预测性、基于模型的表示与高容量的值函数近似相结合,即使没有规划,也足以取得优异的性能。我们评估了一种简单的无模型算法MR.Q,它将辅助预测目标集成到可扩展的演员-评论家架构中。该方法在多个多任务连续控制任务上优于近期基于世界模型的方法及一系列深度强化学习基线,同时大幅降低计算开销并提升实际运行效率。我们观察到,随着模型容量增加,性能持续提升;并通过消融实验表明,预测性表示学习对性能至关重要。
查看缓存全文
缓存时间: 2026/06/05 08:11
# 表示学习实现可扩展的多任务深度强化学习
来源:https://arxiv.org/html/2606.05555
Johan Obando\-Ceron\(^{1,2}\)Lu Li\(^{1,2}\)Scott Fujimoto\(^{3}\)Pierre\-Luc Bacon\(^{1,2}\) Aaron Courville\(^{1,2,4}\)Pablo Samuel Castro\(^{1,2,5}\)
\(^{1}\)Mila – Québec AI Institute
\(^{2}\)Université de Montréal
\(^{3}\)McGill University
\(^{4}\)CIFAR AI Chair
\(^{5}\)Google DeepMind
jobando0730@gmail\.com, scott\.fujimoto@mail\.mcgill\.ca
\{lu\.li, pierre\-luc\.bacon, courvila, pablo\-samuel\.castro\}@mila\.quebec
###### 摘要
将强化学习扩展到多样化的多任务场景仍是一个核心挑战。虽然近期基于模型的强化学习取得了强劲性能,但它们依赖规划与复杂的训练流程,使得难以判断哪些组件对可扩展性至关重要。我们重新审视这一问题,认为驱动可扩展多任务强化学习的关键并非基于模型的控制,而是**表示学习**。具体而言,我们证明将基于模型的预测性表示与高容量值函数逼近相结合,即使没有规划,也足以实现强劲性能。我们评估了一种简单的无模型算法 MR.Q,结合辅助预测目标,构建成可扩展的演员-评论家架构。该方法在一系列多任务连续控制任务中超越了近期基于世界模型的方法以及多种深度强化学习基线,同时显著降低了计算开销并提升了墙钟效率。我们观察到随着模型容量增加性能持续提升,并通过消融实验证明预测性表示学习对性能至关重要。
我们的代码可在 ScaleMRL (https://github.com/johanobandoc/ScaleMRL.git) 获取。
“我们观察到的不是自然本身,而是自然暴露于我们的提问方法之下¹¹¹在强化学习中,智能体‘看到’什么取决于它的表示。我们的结果表明,改进表示可能比建模环境动态和规划更重要,也高效得多。” —— 沃纳·海森堡
## 1 引言
深度强化学习在游戏、机器人及控制等多个领域取得了显著成功 (Akkaya et al., 2019 (https://arxiv.org/html/2606.05555#bib.bib26); Mnih et al., 2013 (https://arxiv.org/html/2606.05555#bib.bib96); Schwarzer et al., 2023 (https://arxiv.org/html/2606.05555#bib.bib15))。然而,这些进展大多局限于单任务场景,即智能体在严格定义的环境中训练和评估,通常需要数亿次环境交互才能收敛。相比之下,机器学习的最新进展,尤其是在语言和视觉领域,表明将模型扩展到多样化的数据分布中,能够通过共享表示实现泛化、迁移和鲁棒性 (Wang et al., 2022 (https://arxiv.org/html/2606.05555#bib.bib99); Alayrac et al., 2022 (https://arxiv.org/html/2606.05555#bib.bib100); Kojima et al., 2022 (https://arxiv.org/html/2606.05555#bib.bib102); Subramanian et al., 2023 (https://arxiv.org/html/2606.05555#bib.bib101); Zhou et al., 2025 (https://arxiv.org/html/2606.05555#bib.bib98); Reed et al., 2022 (https://arxiv.org/html/2606.05555#bib.bib112); Wiedemer et al., 2026 (https://arxiv.org/html/2606.05555#bib.bib103))。将这些原则扩展到在线深度强化学习仍是一个开放挑战。与监督学习不同,强化学习涉及非平稳数据、自举目标以及长程信用分配,这会引入优化不稳定性,表现为表示坍缩、可塑性丧失以及值估计不稳定。这些不稳定性加剧了学习的样本成本,最终阻碍了多任务场景的进步 (Kumar et al., 2021 (https://arxiv.org/html/2606.05555#bib.bib104); Nikishin et al., 2022 (https://arxiv.org/html/2606.05555#bib.bib20); Sokar et al., 2023 (https://arxiv.org/html/2606.05555#bib.bib46); Nauman et al., 2024 (https://arxiv.org/html/2606.05555#bib.bib61); Tang and Berseth, 2024 (https://arxiv.org/html/2606.05555#bib.bib105); Castanyer et al., 2025 (https://arxiv.org/html/2606.05555#bib.bib29))。多任务强化学习 (MTRL) 旨在训练一个单一的智能体来处理任务分布,但在日益多样化的任务分布上进行训练会引入不稳定、任务干扰以及模型容量利用不足等问题 (Teh et al., 2017 (https://arxiv.org/html/2606.05555#bib.bib106); Yu et al., 2020a (https://arxiv.org/html/2606.05555#bib.bib107); D’Eramo et al., 2020 (https://arxiv.org/html/2606.05555#bib.bib110); Kong et al., 2025 (https://arxiv.org/html/2606.05555#bib.bib111))。Nauman et al. (2025 (https://arxiv.org/html/2606.05555#bib.bib97)) 的近期工作表明,大幅增加值函数容量,配合分类值参数化和显式正则化,能显著提升多任务性能。然而,仅扩大模型规模并不能解决问题:没有合适的训练目标和表示学习机制,更大的模型只会需要更多数据才能稳定 (Taiga et al., 2023 (https://arxiv.org/html/2606.05555#bib.bib108); Farebrother et al., 2024 (https://arxiv.org/html/2606.05555#bib.bib109))。这表明表示质量是进步的核心维度,因为更好的表示已被证明能降低 TD 方差、加速学习并稳定跨任务训练 (Castro et al., 2021 (https://arxiv.org/html/2606.05555#bib.bib34); Schwarzer et al., 2021 (https://arxiv.org/html/2606.05555#bib.bib35); Fujimoto et al., 2023 (https://arxiv.org/html/2606.05555#bib.bib13); Cetin et al., 2023 (https://arxiv.org/html/2606.05555#bib.bib115); Echchahed and Castro, 2025 (https://arxiv.org/html/2606.05555#bib.bib114); Obando\-Ceron et al., 2026a (https://arxiv.org/html/2606.05555#bib.bib50))。基于模型的强化学习方法通过利用预测目标(特别是学习潜在动力学模型)来追求这一目标,以提供密集的监督信号,塑造出比单纯 TD 学习更好的表示。这种更丰富的学习信号是近期基于模型进展的关键驱动力 (Hafner et al., 2020b (https://arxiv.org/html/2606.05555#bib.bib68), 2025a (https://arxiv.org/html/2606.05555#bib.bib69); Hansen et al., 2024 (https://arxiv.org/html/2606.05555#bib.bib11), 2026 (https://arxiv.org/html/2606.05555#bib.bib49); Fujimoto et al., 2025 (https://arxiv.org/html/2606.05555#bib.bib19))。近期的大规模系统进一步结合了预测性表示学习、大规模共享架构和规划,以实现强劲的多任务性能 (Xu et al., 2023 (https://arxiv.org/html/2606.05555#bib.bib124); Georgiev et al., 2025 (https://arxiv.org/html/2606.05555#bib.bib51); Hafner et al., 2025a (https://arxiv.org/html/2606.05555#bib.bib69); Hansen et al., 2026 (https://arxiv.org/html/2606.05555#bib.bib49))。然而,由于这些方法将多个组件捆绑在一起,很难孤立出它们性能提升的真正来源。此外,规划本身会引入计算开销、超参数敏感性以及模型误差累积,最终削弱这些方法旨在提供的效率增益 (Zhang et al., 2021b (https://arxiv.org/html/2606.05555#bib.bib123); Talvitie, 2014 (https://arxiv.org/html/2606.05555#bib.bib121); Rajeswaran et al., 2017 (https://arxiv.org/html/2606.05555#bib.bib118); Clavera et al., 2018 (https://arxiv.org/html/2606.05555#bib.bib119); Chua et al., 2018 (https://arxiv.org/html/2606.05555#bib.bib120); Voelcker et al., 2022 (https://arxiv.org/html/2606.05555#bib.bib122))。
我们假设,基于模型控制所带来的大部分好处实际上源于这些方法学到的表示,而仅靠预测目标本身就能够在大规模下实现具有竞争力的样本效率 (Jaderberg et al., 2017 (https://arxiv.org/html/2606.05555#bib.bib127); Gelada et al., 2019 (https://arxiv.org/html/2606.05555#bib.bib126); Lee et al., 2020 (https://arxiv.org/html/2606.05555#bib.bib125); Anand et al., 2022 (https://arxiv.org/html/2606.05555#bib.bib128))。为了验证这一假设,我们研究了 MR.Q (Fujimoto et al., 2025 (https://arxiv.org/html/2606.05555#bib.bib19)),一个纯粹的无模型智能体,它将预测目标整合到 TD 学习中。MR.Q 是研究这个问题的天然探针,因为它将预测学习的表示益处与规划的干扰分离开来,使我们能够测试更丰富的监督信号是否单独驱动了样本效率的提升。虽然 MR.Q 最初是为单任务场景提出的,但我们将其评估扩展到多任务场景。然而,先前的多任务强化学习基准通常在 1 亿或更多环境步骤下进行评估 (Hansen et al., 2026 (https://arxiv.org/html/2606.05555#bib.bib49)),这模糊了方法是否真正具有样本高效性,还是仅仅得益于长时间的训练。为了解决这个问题,我们考虑了一个基准版本,在 1000 万环境步骤下评估智能体,此时样本效率的提升最为明显。在一系列连续控制基准测试中,MR.Q 超越了近期基于世界模型的方法 (Newt (Hansen et al., 2026 (https://arxiv.org/html/2606.05555#bib.bib49))),同时实现了显著更好的墙钟时间、样本效率,并且展示了在模型大小和数据规模扩大时的性能提升。此外,MR.Q 在未见任务上表现出比 Newt 更强的迁移能力,表明通过多任务训练学到的表示能够提供更好的零样本初始化以及在少样本微调期间更快的适应。消融实验进一步证实了预测目标的关键性,即使在大模型规模下,移除这些目标也会导致性能显著下降。总体而言,这些结果支持了一种以表示为中心的深度强化学习扩展观点,其中学习到的表示质量在实现有效的可扩展多任务学习中起着核心作用。
## 2 预备知识
#### 问题设定。
我们考虑一个多任务强化学习 (MTRL) 设定,其中任务 τ∼p(τ) 从任务分布中采样。每个任务诱导一个马尔可夫决策过程 (MDP) M_τ = (S, A, T_τ, R_τ, γ),其中我们假设所有任务共享动作空间 A 和(通常)状态空间 S,而转移动态和奖励可能随 τ 变化。在每个时间步 t,智能体观察到 s_t ∈ S,采取动作 a_t ∈ A,获得奖励 r_t ∼ R_τ(s_t, a_t),并转移到 s_{t+1} ∼ T_τ(·∣s_t, a_t)。目标是学习一个单一的策略 π(a∣s, τ),最大化跨任务的期望折现回报,形式化为 E_{τ∼p(τ), π}[∑_{t=0}^∞ γ^t r_t]。
与 Hansen et al. (2026 (https://arxiv.org/html/2606.05555#bib.bib49)) 类似,当任务信息可用时(例如任务标识符或语言指令),我们在策略和值函数上以学习到的嵌入 e(τ) 为条件。否则,问题退化为部分可观测的 MDP,任务身份必须从交互中推断。我们假设一个离策略设定,其中经验存储在一个重放缓冲区 D 中,包含元组 (s_t, a_t, r_t, d_t, s_{t+1}, τ),其中 d_t ∈ {0,1} 表示回合终止。我们采用离策略演员-评论家架构 (Konda and Tsitsiklis, 1999 (https://arxiv.org/html/2606.05555#bib.bib132); Fujimoto et al., 2018 (https://arxiv.org/html/2606.05555#bib.bib16)),其中参数化策略(演员)π_ψ(a∣s, τ) 被训练以最大化期望回报,而值函数(评论家)Q_θ(s, a, τ) 估计状态-动作对的期望回报。评论家通过时序差分 (TD) 学习进行优化,使用由缓慢更新的目标网络构建的目标,而演员则被训练以最大化评论家的值估计。在实践中,我们使用孪生评论家 Q_{θ_1}, Q_{θ_2} 来减轻高估偏差,如同先前在离策略强化学习中的工作 (Fujimoto et al., 2018 (https://arxiv.org/html/2606.05555#bib.bib16); Haarnoja et al., 2018 (https://arxiv.org/html/2606.05555#bib.bib45))。
#### 预测信息表示。
表示学习是深度强化学习的核心,尤其是在高维和多任务场景中,其中稳定性与泛化取决于所学特征的结构 (Agarwal et al., 2021 (https://arxiv.org/html/2606.05555#bib.bib133); Echchahed and Castro, 2025 (https://arxiv.org/html/2606.05555#bib.bib114))。由于时序差分学习提供的监督通常较弱且非平稳,预测性辅助目标被广泛用于稳定优化,并鼓励潜在表示捕捉环境动态和时间结构,而不仅仅是奖励信号 (Nikishin et al., 2022 (https://arxiv.org/html/2606.05555#bib.bib20); Hafner et al., 2020b (https://arxiv.org/html/2606.05555#bib.bib68); Hansen et al., 2024 (https://arxiv.org/html/2606.05555#bib.bib11))。我们考虑一个离策略演员-评论家,它操作在学习到的潜在表示上。观测(以及可选的任务信息)被编码为 z_t = φ_ξ(s_t, τ),并且策略 π_ψ(a∣z) 和孪生评论家 Q_{θ_1}, Q_{θ_2} 都在潜在空间中操作。评论家通过带目标网络的时序差分学习进行训练,而策略则最大化值估计。为了提升表示质量,我们在潜在空间中用预测建模来增强训练:动态、奖励和终止模型从 (z_t, a_t) 预测 (z_{t+1}, r_t, d_t) (Fujimoto et al., 2025 (https://arxiv.org/html/2606.05555#bib.bib19)),并且它们的梯度被反向传播到编码器 φ_ξ。这鼓励表示能够预测环境动态和任务相关信号。关键在于,没有进行任何规划:学到的模型仅用于塑造表示,从而隔离了预测学习的好处,避免了显式基于模型控制的计算开销和不稳定性。
## 3 通过表示学习扩展深度强化学习
参见图例
图 1: 表示质量驱动无模型强化学习中的扩展性能。
我们比较标准 PPO 与一个添加了基于模型的表示 (+ MB. Representations) 的变体,在 HalfCheetah 和 Humanoid 上使用四种网络大小 (Small, Medium, Large, X-Large)。
深度强化学习面临的一个核心挑战是如何将智能体扩展到跨任务、模型容量和数据规模。近期的进展主要由基于模型的方法推动,这些方法学习预测性的世界模型并利用规划来改进决策 (Hansen et al., 2024 (https://arxiv.org/html/2606.05555#bib.bib11); Hafner et al., 2025a (https://arxiv.org/html/2606.05555#bib.bib69))。诸如 Dreamer 和 TD-MPC2 之类的方法表明,将预测建模与大容量函数逼近器相结合,可以在单任务和多任务场景中大幅提升性能。在更大规模上,诸如 Newt (Hansen et al., 2026 (https://arxiv.org/html/2606.05555#bib.bib49)) 之类的系统通过训练跨多个不同的连续控制域的共享世界模型,将此范式扩展到数百个任务,并表现出令人印象深刻的可扩展性。相似文章
用于样本高效连续控制的无偏模型化表示
本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。
R2R2: 通过自预测学习中的冗余减少实现鲁棒表示,用于密集经验重用
提出R2R2,一种用于强化学习中自预测学习的正则化方法,以缓解高更新-数据比下的过拟合,在连续控制任务上取得了显著改进。
GoLongRL:面向能力的长上下文强化学习与多任务对齐
GoLongRL 提出了一种开源方法,通过面向能力的数据构建和 TMN-Reweight 方法,实现具有多样化奖励优化的长上下文强化学习。
多智能体系统中的策略表示学习
OpenAI 研究人员提出了一个通用框架,用于在多智能体系统中使用最少的交互数据学习智能体策略的表示,将该问题视为表示学习,并应用于竞争控制和合作通信环境。
多智能体RL何时能提升LLM工作流?工作流、规模与策略共享的权衡
本文研究了端到端强化学习训练何时能改善多智能体LLM工作流,比较了不同工作流、任务和模型规模下的共享策略与隔离策略训练,揭示了条件性权衡。