分层决策与结构化策略:一种基于逆优化的原则性设计

arXiv cs.LG 论文

摘要

本文提出了一种原则性的分层强化学习-最优控制框架,利用逆优化从专家示范中设计低层策略目标,确保与长期任务目标一致。在资源分配和碰撞避免任务上,该框架优于基线方法。

arXiv:2606.28764v1 公告类型:新 摘要:分层决策框架对于解决复杂控制任务至关重要,它使智能体能够将复杂问题分解为可管理的子目标。然而,现有的分层策略面临关键局限性:(i) 基于强化学习(RL)的方法难以保证严格的约束满足;(ii) 基于最优控制(OC)的方法通常依赖短视且计算代价高昂的公式。为了调和这些权衡,分层 RL-OC 架构已成为一种有前景的范式。然而,这些框架中低层优化的公式尚未得到充分探索,通常依赖于启发式或短视的目标。在本工作中,我们提出了一种原则性框架,系统性地整合了高层目标抽象与结构化低层决策。我们采用逆优化方法,从专家示范中推导低层问题的结构,确保低层策略的目标与整体长期任务目标保持一致。为验证该方法,我们在不同的决策任务上进行了评估:基于网络的资源分配和连续碰撞避免。实验结果表明,我们的方法在效率和决策质量上持续优于端到端强化学习、学习增强最优控制以及现有分层强化学习方法等强基线方法。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:29

# 基于逆优化的分层决策与结构化策略:一种原则性设计 来源:https://arxiv.org/html/2606.28764 ###### 摘要 分层决策框架对于解决复杂控制任务至关重要,它使智能体能够将复杂问题分解为可管理的子目标。尽管前景广阔,但现有分层策略存在关键局限:(i) 基于强化学习(RL)的方法难以保证严格的约束满足;(ii) 基于最优控制(OC)的方法通常依赖短视且计算上昂贵的公式。为调和这些权衡,分层RL-OC架构已成为一个有前景的范式。然而,这些框架中底层优化问题的表述仍未被充分探索,通常依赖于启发式或短视的目标。本文提出一个原则性框架,系统地将上层目标抽象与结构化底层决策相结合。我们采用逆优化方法,从专家演示中为底层问题结构提供信息,确保底层策略的目标与整体长期任务目标保持一致。为验证该方法,我们在两种不同的决策任务上评估了该框架:基于网络的资源分配和连续碰撞避免。实验结果表明,我们的方法在效率和决策质量上始终优于基于端到端RL、学习增强最优控制以及现有分层RL方法的强基线。机器学习,ICML

## 1 引言

信息物理系统(如机器人、电网和交通)中的实时决策本质上具有挑战性,因为其状态和动作空间高维且存在复杂物理约束(Jendoubi and Bouffard,2023 (https://arxiv.org/html/2606.28764#bib.bib54); Zhou et al.,2024 (https://arxiv.org/html/2606.28764#bib.bib52); Liang et al.,2025 (https://arxiv.org/html/2606.28764#bib.bib53))。现有解决方案主要来自最优控制(OC)和深度强化学习(RL)。基于OC的方法旨在优化系统在无限或长期内的性能,同时确保稳定性和可行性。这些方法因其理论保证而适用于安全关键系统,但在高维或非线性环境下可能扩展性较差(Yu-Geng et al.,2013 (https://arxiv.org/html/2606.28764#bib.bib68))。相比之下,基于RL的方法直接从与环境的交互中学习策略,能够很好地扩展到复杂任务。然而,这些方法需要大量训练,且由于其黑箱特性,缺乏安全性或约束满足保证(Zhao et al.,2023 (https://arxiv.org/html/2606.28764#bib.bib66); Wang et al.,2020 (https://arxiv.org/html/2606.28764#bib.bib67))。这些权衡促使人们越来越关注将基于OC和基于RL的方法相结合,以利用两种范式的优势。

通过分层架构将决策分解为两个连续子问题,是融合OC与RL方法的一个有前景的途径(Lew et al.,2023 (https://arxiv.org/html/2606.28764#bib.bib27); Karnchanachari et al.,2020 (https://arxiv.org/html/2606.28764#bib.bib28))。RL和OC各自的优势自然契合于该框架:上层采用RL策略进行战略规划(如生成子目标),而底层使用OC确保障碍安全可行的执行。这种分层架构不仅增强了可扩展性和可行性,还符合人类认知——人类倾向于在内在动机引导下进行抽象规划,并由快速的低层执行支撑(Aubret et al.,2019 (https://arxiv.org/html/2606.28764#bib.bib6))。

尽管分层RL-OC框架前景广阔,但底层优化问题的表述仍未被充分探索。底层控制器必须既计算高效,又与上层目标一致,因为设计不当的公式可能会无意中排除高质量的解决方案。现有方法存在若干局限。首先,大多数分层方法在底层采用长视界OC公式以保持稳定性和可行性保证(Song and Scaramuzza, (https://arxiv.org/html/2606.28764#bib.bib55); Cheng et al.,2024 (https://arxiv.org/html/2606.28764#bib.bib56); Landgraf et al.,2022 (https://arxiv.org/html/2606.28764#bib.bib57))。然而,已知这种长视界OC公式会导致实时应用面临高昂的计算复杂度(Karamanakos et al.,2014 (https://arxiv.org/html/2606.28764#bib.bib58); Krishnamoorthy et al.,2020 (https://arxiv.org/html/2606.28764#bib.bib59))。其次,近期工作利用单步OC通过直接生成期望下一状态的值或约束来提升计算效率(Gammelli et al.,2023 (https://arxiv.org/html/2606.28764#bib.bib3); Schmidt et al.,2024 (https://arxiv.org/html/2606.28764#bib.bib32))。然而,这些公式通常依赖短视目标,缺乏适当的设计,导致轨迹次优(Rawlings et al.,2020 (https://arxiv.org/html/2606.28764#bib.bib60); Lowrey et al.,2018 (https://arxiv.org/html/2606.28764#bib.bib61))。上述挑战凸显了表述底层优化问题的重要性,既需降低次优性,又要保证计算复杂度的可控性。

为解决这些局限,我们提出一种逆优化引导的方法,利用少量专家演示系统地为底层策略的设计提供信息(图1 (https://arxiv.org/html/2606.28764#S1.F1)),这些演示提供了宝贵的见解。与依赖手动指定的目标不同,我们将底层成本函数的构建视为一个逆优化问题,旨在恢复一个使专家决策(近似)最优的公式。对于一类具有线性成本函数的底层优化问题,我们提供了专家演示最优性条件的理论刻画。

图1:我们提出一个RL-OC分层决策框架,其底层策略由逆优化提供信息。

一旦公式建立,我们开发计算高效的方法来求解所得的逆问题,并将学习到的底层结构集成到分层RL-OC框架中。我们在来自不同领域的三个代表性决策任务上评估了所提方法:自动驾驶车辆再平衡、供应链库存管理和移动机器人导航。从定量和定性角度验证了学习所得公式的改进。基于上述讨论,我们总结本文的主要贡献如下:
- • 提出一种基于逆优化的方法,在分层RL-OC框架内系统性地构建底层优化公式。
- • 针对一类广泛应用的特殊问题提供理论分析,提出一种可处理的成本结构和高效的逆优化公式,确保逆向可行性、前向稳定性和计算可处理性。
- • 在多个不同领域的场景中展示所提框架的有效性,彰显其在实际应用中的相关性和潜在影响。

## 2 相关工作

本文与层次化结构化控制策略的文献相关。根据各层采用基于学习还是基于模型的方法,现有工作可大致分为两类:(i) 分层强化学习(HRL),各层均使用RL;(ii) 基于学习的最优控制,例如集成RL与模型预测控制(MPC)的框架,其中上层策略学习期望状态或目标,简化后的底层MPC确保安全可行的执行。

分层强化学习。HRL通过设置子目标将复杂难解的问题分解为多个更简单的子问题(Kulkarni et al.,2016 (https://arxiv.org/html/2606.28764#bib.bib15); Vezhnevets et al.,2017 (https://arxiv.org/html/2606.28764#bib.bib18); Ma et al.,2021 (https://arxiv.org/html/2606.28764#bib.bib13); Xie et al.,2021 (https://arxiv.org/html/2606.28764#bib.bib39); Eppe et al.,2022 (https://arxiv.org/html/2606.28764#bib.bib38); Qi et al.,2022 (https://arxiv.org/html/2606.28764#bib.bib40); Huang et al.,2022 (https://arxiv.org/html/2606.28764#bib.bib51); Gu et al.,2023 (https://arxiv.org/html/2606.28764#bib.bib41); Mao et al.,2024 (https://arxiv.org/html/2606.28764#bib.bib43); Luo et al.,2024 (https://arxiv.org/html/2606.28764#bib.bib44); Zhang et al.,2024b (https://arxiv.org/html/2606.28764#bib.bib45); Hirt et al.,2024 (https://arxiv.org/html/2606.28764#bib.bib50))。我们关注分层策略如何通过设置子目标利用各种形式的内在动机。例如,Naveed等人(2021 (https://arxiv.org/html/2606.28764#bib.bib31))使用高层策略为自动驾驶选择操作,同时低层规划器相应地生成路径点。Vezhnevets等人(2017 (https://arxiv.org/html/2606.28764#bib.bib18))提出了封建网络,其中管理者设置抽象目标,传递给工作者模块并由其执行。另一个常见选择是将目标表示为期望状态;例如,Nachum等人(2018 (https://arxiv.org/html/2606.28764#bib.bib19))将目标状态视为高层动作,并对达到该状态的低层策略进行奖励。近年来,越来越多的研究探索如何定义子目标以及在子目标空间中高效搜索(Liu et al.,2021 (https://arxiv.org/html/2606.28764#bib.bib35); Ma et al.,2023 (https://arxiv.org/html/2606.28764#bib.bib36))。尽管如此,现有研究并未明确建模子目标如何通过定义良好的底层优化问题来诱导最终动作,通常依赖隐式或黑箱策略映射。此外,如前所述,在强化学习框架中严格地融入约束以保证安全性具有挑战性。在下一节中,我们将重点探讨学习(尤其是强化学习)如何与之前文献中的优化相互作用。

基于学习的OC。在控制社区中,许多实际控制问题通过基于学习的OC得以解决。在许多现有工作中,基于学习的方法常用于学习成本函数或系统动力学(Lenz et al.,2015 (https://arxiv.org/html/2606.28764#bib.bib11); Coulson et al.,2019 (https://arxiv.org/html/2606.28764#bib.bib47); Hewing et al.,2020 (https://arxiv.org/html/2606.28764#bib.bib12); Dogan et al.,2023 (https://arxiv.org/html/2606.28764#bib.bib48); Zhang et al.,2024a (https://arxiv.org/html/2606.28764#bib.bib49); Lu et al.,2024 (https://arxiv.org/html/2606.28764#bib.bib21); Zhang et al.,2024a (https://arxiv.org/html/2606.28764#bib.bib49); Dinkla et al.,2026 (https://arxiv.org/html/2606.28764#bib.bib46))。然而,由于变量高维和约束复杂,使用长控制视界时实时求解最优控制问题仍然面临挑战。先前的工作尝试通过将长视界OC问题近似为单步公式并学习终端成本以缓解短视行为来降低计算负担(Abdufattokhov et al.,2021 (https://arxiv.org/html/2606.28764#bib.bib16); Alsmeier et al.,2024 (https://arxiv.org/html/2606.28764#bib.bib20); Zhang et al.,2024a (https://arxiv.org/html/2606.28764#bib.bib49))。然而,当视界被激进地缩短时,仅学习终端成本可能不足,因为终端项需要编码大部分长期规划信号,这通常高度依赖于状态,且可能难以表示。这激发了RL-OC框架。Gammelli等人(2023 (https://arxiv.org/html/2606.28764#bib.bib3))提出利用强化学习学习上层动作,以缩短网络流控制问题的控制视界。在该框架中,强化学习用于生成期望的下一状态,引导底层执行器朝着最大化累积奖励的方向前进。然而,底层优化问题仍然依赖短视目标,并未依赖于明确且适当设计的公式。此外,Schmidt等人(2024 (https://arxiv.org/html/2606.28764#bib.bib32))研究了离线环境下的分层RL-OC,并专注于生成上层子目标。他们的框架假设离线数据对于底层控制问题是最优的,这有时不切实际,并且遗留了底层OC公式的设计问题。与这一研究路线相关,我们的工作探讨如何在分层RL-OC框架中表述底层优化问题,以减轻由结构短视引起的次优性问题。

## 3 方法论

### 3.1 问题设定与预备

考虑一个通用的多步决策问题,其公式如 (1) 所示。

\[
\begin{aligned}
\min_{\{\boldsymbol{u}_t\}_{t=0}^{\infty}} & \limsup_{T \to \infty} \frac{1}{T} \sum_{t=0}^{T-1} c(\boldsymbol{x}_t, \boldsymbol{u}_t) \\
\text{s.t.} \quad & \boldsymbol{x}_{t+1} = f(\boldsymbol{x}_t) + g(\boldsymbol{x}_t) \boldsymbol{u}_t, \quad \forall t \geq 0 \\
& \boldsymbol{x}_t \in \mathcal{X}_t, \quad \forall t \geq 0 \\
& \boldsymbol{u}_t \in \mathcal{U}_t, \quad \forall t \geq 0
\end{aligned}
\tag{1}
\]

其中 \(\boldsymbol{x}_t \in \mathbb{R}^n\) 是时间步 \(t\) 的系统状态,\(\boldsymbol{u}_t \in \mathbb{R}^m\) 是控制输入,\(c(\boldsymbol{x}_t, \boldsymbol{u}_t)\) 是阶段成本函数。系统动力学假设为控制仿射形式(即关于 \(\boldsymbol{u}_t\) 线性),具有函数 \(f(\cdot)\) 和 \(g(\cdot)\)。可行集 \(\mathcal{X}_t\) 和 \(\mathcal{U}_t\) 分别编码了可容许的状态和输入。初始状态 \(x_0\) 已知。由于无限视界以及复杂约束的存在,求解问题 (1) 通常在计算上不可行。标准的变通方法是有限视界近似。然而,对于大规模系统,长时视界的OC问题在计算上仍具挑战性,无法满足实际应用的实时性要求。为解决这一问题,我们将Gammelli等人(2023 (https://arxiv.org/html/2606.28764#bib.bib3))提出的双层决策框架推广至更一般的问题设定。

### 3.2 双层框架

分层RL-OC框架实现为一个端到端系统,如问题 (2) 所示。

\[
\begin{aligned}
\pi^* \in \arg\min_{\pi \in \Pi} & \mathbb{E}_{\tau} \left[ \sum_{t=0}^{\infty} \gamma^t c(\boldsymbol{u}_t, \boldsymbol{x}_t) \right] \\
\text{s.t.} \quad & \boldsymbol{h}_t \sim \pi(\boldsymbol{h}_t \mid \boldsymbol{x}_t
\end{aligned}
\]

相似文章

面向多模态推理的结构化角色感知策略优化

arXiv cs.AI

本文介绍了结构化角色感知策略优化(SRPO),该方法通过在大视觉-语言模型的强化学习框架内,根据感知和推理的不同角色分配令牌级信用,从而提升多模态推理能力。

SocraticPO:通过交互式指导的策略优化

arXiv cs.LG

SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。

基于后验混合贝叶斯信念的正则化离线策略优化

arXiv cs.AI

本文介绍了后验混合贝叶斯信念(PhyB),这是一个将贝叶斯强化学习中的期望重新表述为动力学模型的凸组合的框架,从而能够实现具有有界目标差异和最新性能的高效正则化离线策略优化。