大规模并行在策略强化学习的信任区域扩散策略

arXiv cs.LG 论文

摘要

介绍了TruDi,一种通过使用信任区域优化规则来强制KL散度约束,从而在大规模并行在策略强化学习中训练扩散策略的方法,在73个任务中取得了强劲性能。

arXiv:2606.15260v1 公告类型:新 摘要:基于大规模并行模拟的强化学习已成为开发鲁棒、可部署策略的标准框架;然而,大多数现有方法仍依赖简单的高斯策略参数化。扩散模型提供了更具表达力的策略类别,并在具有挑战性的控制问题上展现出强劲性能,但大多数基于扩散的强化学习方法是为离线或离策略训练设计的。在本工作中,我们探究扩散策略是否能在大规模并行在策略设置下有效训练。为此,我们引入了信任区域扩散策略(TruDi),该方法使得扩散策略能够用于大规模并行模拟下的在策略强化学习。这一设置特别具有挑战性,因为数据分布在更新间快速变化,使得复杂策略的稳定训练变得困难。TruDi通过整合信任区域优化规则来强制整个扩散轨迹上的KL散度约束,从而解决了这一问题。在实验中,我们在4个大规模并行强化学习基准测试(共包含73个任务)上评估了TruDi。在这些任务中,TruDi在标准任务上持续优于或与强基线持平,在更具挑战性的人形机器人控制任务上取得了明显收益,为大规模并行在策略强化学习建立了一个强劲的新基准。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:39

# 用于大规模并行在线策略强化学习的信任域扩散策略 来源: https://arxiv.org/html/2606.15260 Onur CelikDenis BlessingTai HoangClaas A VoelckerAxel BrunnbauerFelix RichterMichael VolppGerhard Neumann ###### 摘要 利用大规模并行模拟进行强化学习已成为开发鲁棒、可部署策略的标准框架;然而,现有的大多数方法仍然依赖于简单的高斯策略参数化。扩散模型提供了一类更具表达力的策略,并在具有挑战性的控制问题上表现出强大性能,但大多数基于扩散的强化学习方法是为离线或离线策略训练设计的。在这项工作中,我们探讨了扩散策略能否在大规模并行、在线策略设置下有效训练。为此,我们引入了信任域扩散策略(TruDi),它使得扩散策略能够用于具有大规模并行模拟的在线策略强化学习。这一设置尤其具有挑战性,因为每次更新时数据分布快速变化,使得复杂策略的稳定训练变得困难。TruDi 通过整合一个信任域优化规则来解决这个问题,该规则在整个扩散轨迹上强制执行 KL 散度约束。在实验上,我们在包含总共73个任务的多样化4个大规模并行强化学习基准上评估了TruDi。在这些任务中,TruDi 在标准任务上始终优于或持平于强基线,并在更具挑战性的人形控制任务上取得了明显增益,为大规模并行在线策略强化学习建立了一个新的强基线。 机器学习, 强化学习, 扩散策略, ICML

## 1 引言

扩散模型(Ho 等人,2020 (https://arxiv.org/html/2606.15260#bib.bib76);Sohl-Dickstein 等人,2015 (https://arxiv.org/html/2606.15260#bib.bib64);Song 等人,2021 (https://arxiv.org/html/2606.15260#bib.bib61))在高维生成任务中取得了显著成果,特别是在目标分布数据可用的领域,例如图像生成(Ho 等人,2022 (https://arxiv.org/html/2606.15260#bib.bib65);Saharia 等人,2022 (https://arxiv.org/html/2606.15260#bib.bib66);Rombach 等人,2022 (https://arxiv.org/html/2606.15260#bib.bib67))或模仿学习(Chi 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib68);Zhou 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib55);Carvalho 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib69))。最近,它们在强化学习(RL)中的强大表示特性也得到了探索(Celik 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib10);Le 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib34);Wang 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib48),2023 (https://arxiv.org/html/2606.15260#bib.bib38);Ding 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib92);Ren 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib32)),其中策略由扩散模型表示并从零开始训练。在这里,生成一个依赖于观测的动作需要首先运行扩散过程。在最后一个扩散时间步后的动作然后在环境中执行(Wang 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib38);Ren 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib32);Celik 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib10);Le 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib34))。

基于扩散的策略主要被整合到离线策略强化学习设置中,以利用该框架的数据效率。这种方法在广泛的基准测试中取得了显著成果,达到了最先进的性能。最近高度并行化模拟器的进展(Mittal 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib25);Zakka 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib27);Tao 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib4);Hoang 等人,2026 (https://arxiv.org/html/2606.15260#bib.bib93))导致了强化学习训练的显著加速,并在使用高斯策略表示(Rudin 等人,2022 (https://arxiv.org/html/2606.15260#bib.bib1);Zakka 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib27);Kumar 等人,2021 (https://arxiv.org/html/2606.15260#bib.bib59);He 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib60))的在线策略强化学习中展现了令人印象深刻的 sim-to-real 迁移能力。尽管取得了这一突破,但在文献中尚未对使用在线策略强化学习从零训练基于扩散的策略进行研究,主要有两个原因。首先,训练基于扩散的策略通常成本更高,因为生成单个动作需要多个扩散步骤;其次,对于扩散模型,诸如似然之类的基本统计量不易计算(Zhou 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib55))。后者尤其重要,因为信任域约束已被证明在在线策略强化学习方法中对于避免过早收敛至关重要(Peters 等人,2010a (https://arxiv.org/html/2606.15260#bib.bib18);Schulman 等人,2015 (https://arxiv.org/html/2606.15260#bib.bib16),2017 (https://arxiv.org/html/2606.15260#bib.bib19);Abdolmaleki 等人,2015 (https://arxiv.org/html/2606.15260#bib.bib17);Hoang 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib20)),但它们需要评估这些基本统计量。此外,最近的工作(Voelcker 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib14))已经证明,在信任域约束的最大熵目标中显式学习 Q 函数还能提升在线策略强化学习的性能,并显著优于 PPO(Schulman 等人,2017 (https://arxiv.org/html/2606.15260#bib.bib19)),而 PPO 是实践者常用的选择。学习这个 Q 函数还额外提供了用于更新策略的梯度信息,这在基于扩散的推理方法中被普遍使用(Berner 等人,2022 (https://arxiv.org/html/2606.15260#bib.bib82);Vargas 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib84);Richter and Berner,2024 (https://arxiv.org/html/2606.15260#bib.bib85);Nusken 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib83))。这些见解促使我们思考:我们能否在信任域约束的最大熵在线策略强化学习设置中利用扩散模型的强大表示能力?本文旨在通过提出信任域扩散策略(TruDi)来回答这个问题。

我们基于最大熵强化学习的概率推断视角(Toussaint, 2009 (https://arxiv.org/html/2606.15260#bib.bib51);Ziebart 等人,2008 (https://arxiv.org/html/2606.15260#bib.bib50);Haarnoja 等人,2017 (https://arxiv.org/html/2606.15260#bib.bib52);Levine, 2018 (https://arxiv.org/html/2606.15260#bib.bib49)),并采用 Celik 等人(2025 (https://arxiv.org/html/2606.15260#bib.bib10))提出的针对该目标的扩散策略可处理下界。虽然 Celik 等人(2025 (https://arxiv.org/html/2606.15260#bib.bib10))将此公式应用于离线策略学习,但在在线策略强化学习中,信任域约束已被证明对于稳定训练至关重要(Peters 等人,2010b (https://arxiv.org/html/2606.15260#bib.bib53);Schulman 等人,2015 (https://arxiv.org/html/2606.15260#bib.bib16),2017 (https://arxiv.org/html/2606.15260#bib.bib19))。然而,由于扩散策略的边际似然难以计算(Zhou 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib55)),因此对这些策略强制执行信任域并非易事。为了解决这个问题,我们通过约束当前策略和行为策略整个扩散轨迹之间的散度,推导出边际 Kullback-Leibler (KL) 散度的一个可处理的上界。约束这个上界有效地在整个生成过程上强制执行了一个信任域,从而确保了大规模并行在线策略学习所需的稳定性。由此产生的算法是一种信任域约束的在线策略强化学习方法,该方法具有样本效率,并且相较于高斯对应方法,其墙壁时钟训练时间仅略长。此外,我们还演示了如何利用概率流 ODE(Song 等人,2021 (https://arxiv.org/html/2606.15260#bib.bib61))来生成具有更高似然的高回报动作,相比于使用 SDE 和其他评估技术获得的动作。总结来说,我们的贡献有三个方面:

(i) 我们引入了一个原则性框架,通过在整个扩散轨迹上强制执行信任域约束,在在线策略、大规模并行强化学习设置中训练扩散策略;

(ii) 我们提供了跨越标准连续控制和大型机器人基准的综合实证评估,表明我们的方法在标准任务上与强高斯在线策略基线具有竞争力,同时在具有挑战性的高维人形控制上取得了明显增益;

(iii) 我们呈现了对关键设计选择的详细分析,包括信任域阈值的影响、策略评估的不同采样策略(例如,SDE/ODE/best-of-KK),以及对称任务上的多模态性,突出了哪些组件对于稳定有效的训练最为重要。

## 2 相关工作

**大规模并行强化学习。** GPU 加速模拟器(Mittal 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib25);Tao 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib4);Hoang 等人,2026 (https://arxiv.org/html/2606.15260#bib.bib93))的出现将计算瓶颈从数据生成转移到了策略学习。为了利用这种吞吐量,研究最初集中在扩展离线策略算法上:开创性的工作如并行 Q 学习(Li 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib7))解耦了演员和学习者的进程,而最新的最先进方法如 FastTD3(Seo 等人,2025b (https://arxiv.org/html/2606.15260#bib.bib8))和 FastSAC(Seo 等人,2025a (https://arxiv.org/html/2606.15260#bib.bib70))利用大批次更新和 GPU 内重放缓冲区来最小化训练延迟。然而,尽管速度快,这些离线策略方法会带来显著的内存开销,因为维护大缓冲区会限制并行环境和大型网络架构的容量。这重新激发了对在线策略方法的兴趣,这些方法通过立即消耗数据来最小化内存占用。这一谱系从约束优化公式如 REPS(Peters 等人,2010a (https://arxiv.org/html/2606.15260#bib.bib18))和 MORE(Abdolmaleki 等人,2015 (https://arxiv.org/html/2606.15260#bib.bib17)),延伸到可扩展的深度强化学习近似如 PPO(Schulman 等人,2017 (https://arxiv.org/html/2606.15260#bib.bib19))和可微分投影层(Otto 等人,2021 (https://arxiv.org/html/2606.15260#bib.bib15);Li 等人,2024a (https://arxiv.org/html/2606.15260#bib.bib21))。在这些基础上,REPPO(Voelcker 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib14))证明了通过双重上升严格强制执行信任域约束可以使在线策略强化学习匹配离线策略的样本效率,而无需相关的内存瓶颈。虽然这个原始-对偶框架对于具有确切动作似然的高斯策略来说是直接的,但将其应用于扩散策略时,由于其边际分布难以计算而根本受阻。TruDi 通过引入一种新颖的轨迹级信任域克服了这一障碍,成功实现了高度表达、多模态的扩散策略用于大规模并行在线策略强化学习。综合这些方向,REPPO(Voelcker 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib14))通过原始-对偶信任域更新稳定了路径式策略梯度,使得在线策略强化学习能够匹配离线策略的样本效率而无需内存瓶颈。虽然这一框架由于需要可处理的动作似然而限制在高斯策略上,但 TruDi 通过引入一种新颖的轨迹级信任域克服了这一瓶颈,使得表达力强的扩散策略能够用于大规模并行在线策略强化学习。

**强化学习中的基于扩散的策略。** 早期关于强化学习中扩散模型的研究主要集中在离线设置(Wang 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib38);Janner 等人,2022 (https://arxiv.org/html/2606.15260#bib.bib37);Chen 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib39))。这些工作将扩散模型用作高保真轨迹生成器(Janner 等人,2022 (https://arxiv.org/html/2606.15260#bib.bib37)),或作为表达力强的策略先验来正则化静态数据集中的行为(Hansen-Estruch 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib40);Kang 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib41);Lu 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib42);Mao 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib43);Fang 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib44))。这些方法的成功催化了在线基于扩散的强化学习的发展。最初的方法,如 DIPO(Yang 等人,2023 (https://arxiv.org/html/2606.15260#bib.bib45))及其多模态扩展(Li 等人,2024b (https://arxiv.org/html/2606.15260#bib.bib46)),采用了带有 Q 函数指导的行为克隆更新,但依赖于内在随机性进行探索。后续的方法如 QSM(Psenka 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib47))和 QVPO(Ding 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib92))通过匹配分数或使用 Q 值加权扩散损失来简化优化。然而,这些方法通常忽略了策略熵,需要采用临时探索启发式方法,如高斯噪声注入(Psenka 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib47))或均匀采样(Ding 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib92))。DACER(Wang 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib48))尝试使用熵调节器解决这个问题,但依赖于近似的混合高斯模型。DIME(Celik 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib10))将扩散模型引入连续控制的最大熵强化学习框架。与此同时,HyDo(Le 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib34))利用最大熵公式处理操作任务中的混合动作空间。然而,尽管它们在理论上严谨,这些方法通常运行在离线策略模式下。它们对大型经验重放缓冲区的依赖造成了显著的内存瓶颈,使得难以扩展到现代机器人学习所需的大规模并行模拟环境(Seo 等人,2025b (https://arxiv.org/html/2606.15260#bib.bib8), a (https://arxiv.org/html/2606.15260#bib.bib70))。为了克服这些可扩展性瓶颈,最近一波工作已转向在线策略设置。一条研究路线保留了扩散公式,调整信任域或镜像下降方法来处理随机链。例如,DPPO(Ren 等人,2024 (https://arxiv.org/html/2606.15260#bib.bib32))使用 PPO 微调扩散策略,而 GenPO(Ding 等人,2025 (https://arxiv.org/html/2606.15260#bib.bib33))近似似然以启用从零开始学习。这一方向也已扩展到离散组合空间,其中 Ma 等人(2025 (https://arxiv.org/html/2606.15260#bib.bib28))利用策略镜像下降来优化离散扩散策略。一个平行方向利用流匹配来绕过扩散

相似文章

面向在线策略蒸馏的信任区域行为融合

Hugging Face Daily Papers

信任区域行为融合(TRB)通过在线策略蒸馏的预热阶段,在KL信任区域内用教师行为替换学生早期的劣质轨迹,从而在数学推理任务上取得更强结果。

信任域逆强化学习:利用局部策略更新进行显式对偶上升

arXiv cs.LG

本文介绍了信任域逆强化学习(TRIRL),这是一种结合了单调对偶改进与高效局部策略更新的方法,其性能优于最先进的模仿学习方法。该方法通过使用信任域约束,解决了逆强化学习中稳定性与计算成本之间的权衡问题。

Trust Region On-Policy Distillation

Hugging Face Daily Papers

本文提出了信任区域在线策略蒸馏(Trust Region On-Policy Distillation, TrOPD),通过使用信任区域、异常值估计和离策略引导来稳定大型语言模型的在线策略蒸馏,在推理和代码生成基准测试中优于现有方法。

信任区域Q伴随匹配

Hugging Face Daily Papers

信任区域Q伴随匹配(TRQAM)通过投影对偶下降自适应控制路径空间KL散度,解决了离线策略强化学习中的不稳定性问题,从而实现对预训练流策略的稳定微调。该方法在50个OGBench任务上持续优于先前方法,在离线强化学习中达到68%的成功率,而最强基线仅为46%。