利用局部动态规律实现离线分层强化学习中的可复用技能

arXiv cs.AI 论文

摘要

本文介绍了CARL,一种利用局部动态规律学习可复用技能的离线分层强化学习方法。该方法将需要相似动作序列的状态-目标对进行聚类,从而实现更有效的技能复用,并在复杂的人形机器人任务上提升了性能。

arXiv:2605.26371v1 公告类型:新 摘要:分层强化学习(HRL)通过发现和复用时间上可扩展的技能,有望比非分层方法更高效地解决长时域强化学习(RL)任务。然而,获得真正可复用的技能仍然是一个开放挑战。为此,我们关注利用局部动态直觉的抽象:不同全局上下文中的局部转换需要相似类型的动作序列。通过将这些上下文与其所需的动作序列对齐,我们能够学习哪些技能可以复用以及在何处复用它们。原则上,这些信息应有益于许多HRL算法,其中高层策略需要推理其使用的底层技能。由此产生的算法CARL(用于可复用局部控制的对比动作表示)在复杂的人形机器人环境中展示了有意义技能的定性聚类,并且在与HIQL集成时,在OGBench基准上提升了下游性能。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:04

# 利用局部动力学规律性实现离线分层强化学习中的可复用技能
来源:https://arxiv.org/html/2605.26371
Sarthak Dayal 德克萨斯大学奥斯汀分校 计算机科学系 [email protected]
Abhinav Peri¹ 德克萨斯大学奥斯汀分校 计算机科学系 [email protected]
Carl Qi UT Austin  Claas Voelcker UT Austin  Alexander Levine OpenAI  Caleb Chuck UT Austin  Amy Zhang UT Austin

###### 摘要

分层强化学习(HRL)旨在通过发现和复用时间上延展的技能,比非分层方法更高效地解决长时域强化学习(RL)任务。然而,获得真正可复用的技能仍然是一个开放性挑战。为此,我们专注于利用局部动力学直观性(即不同全局上下文中的局部转换需要相似类型的动作序列)的抽象方法。通过将这些上下文与其所需的动作序列对齐,我们能够学习哪些技能可以复用以及在何处复用。原则上,此信息应有益于许多高層策略需要推理其使用的低层技能的HRL算法。由此产生的算法CARL(用于可复用局部控制的对比动作基表示)在复杂的人形机器人环境中展示了有意义的技能定性聚类,并在与HIQL集成时在OGBench基准测试中实现了改进的下游性能。我们在随附网站上提供了额外的结果和视频展示¹¹。

## 1 引言

分层强化学习(HRL)方法提供了一个框架 (Sutton 等, 1999 (https://arxiv.org/html/2605.26371#bib.bib6)),用于抽象低层策略或动作序列(通常称为*技能*),以便复用它们来完成复杂任务。然而,这种可复用技能的承诺往往被现有方法的局限性所抵消 (Zhang 等, 2020 (https://arxiv.org/html/2605.26371#bib.bib51)),这些局限性包括:在共同学习技能与使用这些技能的策略时训练不稳定 (Levy 等, 2019 (https://arxiv.org/html/2605.26371#bib.bib9); Wang 等, 2025 (https://arxiv.org/html/2605.26371#bib.bib52)),以及未能充分利用复用性。一个有前景的方向是将低层技能表示为目标条件策略 (Park 等, 2023 (https://arxiv.org/html/2605.26371#bib.bib5); Hafner 等, 2022 (https://arxiv.org/html/2605.26371#bib.bib50); Eysenbach 等, 2019 (https://arxiv.org/html/2605.26371#bib.bib54)),这解耦了低层和高层策略的训练。然而,通过目标条件低层策略来表示技能会丧失技能的许多理想属性,例如时间抽象和一致的复用性。在这项工作中,我们形式化了局部动力学的概念——即状态空间的许多局部区域共享相似的动力学——以便在整个状态空间中复用低层目标条件技能。

参照图注
图1:学习状态-目标表示以实现技能复用。每个面板中从左到右的人形机器人姿势反映了时间上的进展。CARL学习一个表示φ(s,g),该表示聚类那些允许相同类型的k步动作序列的状态-目标对。CARL将迷宫全局不同部分的人形机器人的“向后走”和“站起来”行为聚类在一起。

为了形式化局部动力学的概念,我们为每个状态定义了局部、有限时域的MDP,以捕获其周围状态及其动力学。然后,我们借鉴互模拟作为一种基于这些MDP定义状态等价性的原则性方法。为了从这个原则推导出实用的算法,我们利用了*行为相似性*的思想:当存在一个策略可以对(s1,g1)和(s2,g2)使用相同的技能(a1, a2, a3, ..., ak)来实现从s1到g1以及从s2到g2的转换时,这两个状态-目标对被认为是相似的。我们的假设是,当许多状态共享局部动力学结构时,行为相似性自然会涌现,这使其成为理解技能何时可复用的有用启发式方法。我们的方法建立在这些见解之上,并利用对比学习目标将状态-目标对与实现它们的动作序列对齐。

我们引入CARL(用于可复用局部控制的对比动作基表示),以从离线数据集中学习固定技能时域下的局部动力学表示。通过识别潜在的局部动力学结构,CARL可以确定技能在何处可复用,而不是迫使HRL方法从头重新学习低层策略。我们通过将这些抽象集成到现有的HRL算法HIQL和HGCBC (Park 等, 2023 (https://arxiv.org/html/2605.26371#bib.bib5)) 中证明了这一点,在OGBench基准测试中带来了明显的性能提升。此外,我们的目标塑造了潜在几何结构,使得需要相似局部技能的状态-目标对即使出现在环境的不同区域,也会在嵌入中彼此靠近。图1 (https://arxiv.org/html/2605.26371#S1.F1) 在人形迷宫环境中说明了这一点,CARL将技能按其所需行为分组,而不考虑它们在迷宫中的位置。

如前所述,CARL依赖离线数据集和固定时域来捕获局部动力学,这在数据覆盖较差或时域无法捕获有用结构时可能限制可表达的技能。我们包含了分析覆盖度、不平衡性和时域长度影响的消融实验。总体而言,我们的工作表明,局部动力学结构为技能提取和复用提供了原则性基础,有助于HRL重新连接对长时域决策至关重要的时间抽象。

## 2 相关工作

### 2.1 分层强化学习

分层强化学习研究如何通过引入*时间抽象*来解决长时域强化学习(RL)任务,时间抽象指的是调用时间上延展行为的高层决策。这一思想的最早表述之一就是选项框架,该框架将技能建模为具有起始集和终止条件的策略,从而在SMDP控制视图中实现时间延展动作的复用 (Sutton 等, 1999 (https://arxiv.org/html/2605.26371#bib.bib6))。早期的HRL工作探索了各种分层分解和技能抽象,包括封建式的管理者-工作者架构 (Dayan 和 Hinton, 1992 (https://arxiv.org/html/2605.26371#bib.bib53))、值函数分解方法如MAXQ (Dietterich, 2000 (https://arxiv.org/html/2605.26371#bib.bib7)),以及策略约束形式如抽象机层次(HAMs)(Parr 和 Russell, 1997 (https://arxiv.org/html/2605.26371#bib.bib56))。

*端到端*学习层次结构的一个核心挑战是非平稳性。随着低层策略的改变,高层策略面临的有效动力学也会发生偏移,通常会破坏联合优化的稳定性。因此,许多现代方法通过使用子目标(状态空间中的目标)来训练局部目标条件策略,同时学习一个提出有用目标的高层策略,从而解耦层次结构的训练 (Nachum 等, 2018 (https://arxiv.org/html/2605.26371#bib.bib57); Levy 等, 2019 (https://arxiv.org/html/2605.26371#bib.bib9))。最近的离线和基于模型的分层方法通过从离线数据或学习的动力学模型中提取有效策略,进一步改进了这种范式 (Hafner 等, 2022 (https://arxiv.org/html/2605.26371#bib.bib50); Park 等, 2023 (https://arxiv.org/html/2605.26371#bib.bib5))。尽管这种范式显著提高了HRL方法的训练稳定性,但直接在全局状态-目标空间中进行推理使得低层策略难以识别何时可以复用相同的行为。为了克服这一限制,我们专注于学习状态-目标对的表示,这些表示强调短时域的动作结构,从而使得行为能够适当地复用。

### 2.2 通过行为等价性和不变性的抽象

在本节中,我们讨论那些通过学习保持行为的抽象来实现泛化的方法,在这些方法中,不同的状态(或状态-目标上下文)在可互换时被映射到相似的表示上 (Agarwal 等, 2021 (https://arxiv.org/html/2605.26371#bib.bib13); Hansen-Estruch 等, 2022 (https://arxiv.org/html/2605.26371#bib.bib41); Islam 等, 2023 (https://arxiv.org/html/2605.26371#bib.bib46); Ajay 等, 2021 (https://arxiv.org/html/2605.26371#bib.bib22); Park 等, 2025b (https://arxiv.org/html/2605.26371#bib.bib27))。一个常见的主题是定义一个等价关系,该关系保持全局决策相关的结构:例如通过基于值、策略或模型的相似性概念——然后学习表示,将等价的情况压缩在一起,同时丢弃无关的变化。这种观点与基于互模拟的概念密切相关,这些概念刻画了何时两个状态可以在不实质性改变长时域结果的情况下被视为等价 (Zhang 等, 2021 (https://arxiv.org/html/2605.26371#bib.bib40); Rudolph 等, 2024 (https://arxiv.org/html/2605.26371#bib.bib48); Hansen-Estruch 等, 2022 (https://arxiv.org/html/2605.26371#bib.bib41); Castro, 2020 (https://arxiv.org/html/2605.26371#bib.bib43))。

我们的工作属于这一研究路线,但根本目标是建立一种基于*局部复用*的互补等价概念。我们不是要求状态在长时域价值或奖励结构上匹配,而是问不同的状态-目标对何时允许相似的局部到达目标行为,这使得我们能够精确地聚类那些从短时域控制角度看相同、而不考虑长时域影响的状态-目标对。

### 2.3 用于控制的对比表示

对比表示学习提供了一种通用机制,用于提取嵌入中的结构,使得正样本对的得分高于选定负样本对,通常通过诸如InfoNCE或NCE (van den Oord 等, 2019 (https://arxiv.org/html/2605.26371#bib.bib38); Radford 等, 2021 (https://arxiv.org/html/2605.26371#bib.bib42)) 等目标进行训练。在RL中,对比方法已被应用于学习任务相关的结构并实现下游泛化 (Eysenbach 等, 2022 (https://arxiv.org/html/2605.26371#bib.bib36); Agarwal 等, 2021 (https://arxiv.org/html/2605.26371#bib.bib13); Laskin 等, 2020 (https://arxiv.org/html/2605.26371#bib.bib37))。特别地,对比RL (Eysenbach 等, 2022 (https://arxiv.org/html/2605.26371#bib.bib36)) 通过在学习到的相似性度量下使到达目标与匹配未来状态相对应,从而将对比目标与目标条件化RL联系起来。我们的方法受此观点启发,但捕获了不同的结构:我们不学习反映目标可达性的表示,而是捕获低层策略旨在实现的状态-目标转换何时允许相似的动作序列。这与之前转而推理动作长时域效应的方法相比,极大地改变了对比结构。

## 3 预备知识

### 3.1 离线目标条件强化学习

在这项工作中,我们在离线目标条件RL(OGCRL)的背景下研究行为等价性,OGCRL由马尔可夫决策过程 M ≔ (S, A, p, r, γ) 定义,其中 S 是状态空间,A 是动作空间,p: S × A → Δ(S) 是转移函数,Δ(S) 是状态上的分布,r: S × G → R 是奖励函数,γ ∈ (0,1) 是折扣因子。我们考虑 G ⊆ S 的情况。目标是学习一个目标条件策略 π: S × G → Δ(A),使得对于时域 H,期望奖励最大化:max_π J(π) = max_π E_{g∼ρ(g), τ∼ρ^π(τ)} [∑_{t=0}^H γ^t r(s_t, g)]。我们将轨迹 τ = (s_0, a_0, s_1, a_1, ..., s_H) 定义为具有固定时域 H 的状态序列。轨迹根据 ρ^π(τ) = μ(s_0) Π_{t=0}^{H-1} π(a | s_t, g) p(s_{t+1} | s_t, a_t) 采样,其中 μ 是状态的初始分布,ρ(g) 是目标分布。我们记 p(s′ | s, a_k) = ∑_{s_1,..., s_{k-1}∈S} ∏_{i=0}^{k-1} p(s_{i+1} | s_i, a_i),表示 k 步转移函数,其中 a_k 表示从状态 s 开始的 k 步动作序列,a_i 表示该序列中的单个动作。我们旨在用大写字母表示随机变量,花体大写表示空间,小写表示值和函数。

### 3.2 局部动力学

这里我们将局部动力学的直觉形式化为一种状态等价关系。具体地,我们使用固定时域 k 内的转移动力学来表征状态的局部动力学。

###### 定义 3.1 (k 球)。
对于任意 k ∈ N 和 s ∈ S,s 的 *k 球*,记作 B_k(s),是从 s 出发在 k 步内可达的状态集合。形式化地,s′ ∈ B_k(s) 如果存在 t ∈ {0,1,...,k} 和一个动作序列 a_t 使得 p(s′ | s, a_t) > 0。

###### 定义 3.2 (k 球 MDP)。
根植于 s 的 *k 球 MDP* 是有限时域 MDP
M_s^(k) = (B_k(s), A, p, r, k),
其转移动力学 P、动作空间 A 和奖励 R 继承自 M。

我们现在使用 k 球 MDP 来形式化基于局部动力学的状态相似性概念。先前将互模拟应用于 RL 的工作 (Fern 等, 2004 (https://arxiv.org/html/2605.26371#bib.bib65); Zhang 等, 2021 (https://arxiv.org/html/2605.26371#bib.bib40); Rudolph 等, 2024 (https://arxiv.org/html/2605.26371#bib.bib48)) 通过相同动作序列下的奖励序列或单步可控性度量来度量 MDP 之间的相似性。我们的形式则直接考虑动力学,捕捉两个 MDP 对于到达目标行为是否可互换。

###### 定义 3.3 (动力学互模拟)。
设 M_1 = (S_1, A, p_1, r_1) 和 M_2 = (S_2, A, p_2, r_2) 是两个共享动作空间 A 的 MDP。我们称 M_1 和 M_2 是*动力学互模拟*的,如果存在一个全关系 B ⊆ S_1 × S_2,使得对于每个 (x, x′) ∈ B,对于所有 a ∈ A,满足
∀

相似文章

基于状态感知动态检索的Web智能体在线技能学习

arXiv cs.AI

本文提出了SGDR(State-Grounded Dynamic Retrieval,状态感知动态检索),一种面向Web智能体的在线技能学习方法,支持逐步、感知当前状态的技能复用,而非静态的任务级检索。在WebArena上的实验表明,SGDR结合GPT-4.1可达到37.5%的成功率,相较于强基线取得了约10.6%的相对提升。

用于分层强化学习的随机神经网络

OpenAI Blog

OpenAI 研究人员提出了一个使用随机神经网络进行分层强化学习的框架,该框架通过代理奖励引导预训练有用的技能,然后利用这些技能在稀疏奖励或长期视界的下游任务中加速学习。

学习层级结构

OpenAI Blog

OpenAI 研究提出分层强化学习方法,其中智能体将复杂任务分解为高级操作序列而非低级操作,通过将搜索复杂度从数千步降低到数十步,显著提高长视野任务的效率。