在符号世界模型上学习双层策略以实现长时域规划

arXiv cs.AI 论文

摘要

提出了BISON系统,该系统将学习到的低层神经策略与高层符号规划相结合,用于长时域具身任务,展现了强大的泛化能力和效率。

arXiv:2605.15975v1 公告类型:新 摘要:我们致力于构建能够可靠解决长时域规划问题的具身AI智能体。来自演示的模仿学习已被证明能有效训练机器人解决各种需要精细运动控制和低层连续环境操作的复杂任务。然而,仅靠模仿学习生成长期规划仍然困难重重。相比之下,高层符号抽象则促进了高效且可解释的长时域规划。我们提出将低层模仿学习在操作与控制方面的优势与高层符号抽象在长时域规划方面的优势结合起来。我们通过*双层策略*(bilevel policies)的形式$(\pi^{\mathrm{hl}}, \pi^{\mathrm{ll}})$来实现这一想法,该策略由从低层演示中学习到的神经策略$\pi^{\mathrm{ll}}$和一个高层符号策略$\pi^{\mathrm{hl}}$组成,后者是通过对低层演示的符号抽象结合归纳泛化构建的。我们在BISON系统中实现了这些想法。在扩展的MetaWorld基准测试上的实验表明,BISON能够泛化到更长时域和包含更多物体的问题,优于VLA和端到端方法,并且在训练和推理中更具时间和内存效率。值得注意的是,在忽略低层执行的情况下,BISON的高层策略可以在不到一分钟内解决包含10,000个相关物体的高层问题。项目页面:https://dillonzchen.github.io/bison
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:35

# 基于符号世界模型的双层策略学习实现长时域规划
来源: https://arxiv.org/html/2605.15975
Dillon Z. Chen1,2,3,4 Till Hofmann5 Toryn Q. Klassen1,2 Sheila A. McIlraith1,2
1向量研究所 2多伦多大学 3LAAS-CNRS 4图卢兹大学 5亚琛工业大学

###### 摘要
我们致力于构建能够可靠解决长时域规划问题的具身AI智能体。从演示中进行模仿学习已在训练机器人完成多种需要精细运动控制和底层(LL)连续环境操作的复杂任务方面展现出有效性。然而,仅依靠模仿学习生成长时域规划仍然是一项艰巨的任务。相比之下,高层(HL)符号抽象则有助于实现高效且可解释的长时域规划。我们提出将LL模仿学习(用于操作和控制)与HL符号抽象(用于长时域规划)的优势相结合。我们通过形式为(πhl, πll)的双层策略来实现这一想法,该策略包含一个从LL演示中学习到的神经策略πll,以及一个通过LL演示的符号抽象结合归纳泛化构建的HL符号策略πhl。我们将这些想法实现于BISON系统中。在扩展的MetaWorld基准测试上的实验表明,BISON能够泛化到比VLA和端到端方法更长的时域和更多物体的问题,并且在训练和推理时具有更高的时间和内存效率。值得注意的是,当忽略LL执行时,BISON的HL策略能够在一分钟内解决包含10,000个相关物体的HL问题。
项目页面: https://dillonzchen.github.io/bison

执行
•抽象语言: D
•标记函数: L
•带HL目标的LL演示: T
双层策略
环境
状态抽象 shl
观察 sll + ghl
HL策略 πhl
LL策略 πll
时间抽象 ahl
行动 all
L
输入
学习
HL演示 {⟨ghl, ahl_0, ..., ahl_m⟩}
带HL目标的LL演示 {⟨ghl, sll_0, all_0, ..., sll_m, all_m⟩}
HL策略 πhl
LL策略 πll
L
图1: 左上– 学习和执行双层策略的输入: 领域理论D, 将观察映射到状态抽象的标记函数L, 以及带HL目标的LL演示。左下– 双层策略学习: LL演示通过L导出HL演示, LL/HL策略分别从LL/HL演示中学习。右– 双层策略执行: 通过L从观察sll计算状态抽象shl, 以提出HL行动ahl, 进而帮助提出LL行动all.

## 1 引言
长时域规划一直是构建具身AI智能体面临的长期挑战。我们提出了一个结合符号和神经学习与推理优势的框架, 以生成能处理连续状态和动作空间中具有不同物体数量的长时域规划和行动的目标条件策略。在模拟中扩展强化学习和从演示中模仿学习已产生了能够执行多种电机控制和操作任务的机器人策略 (Ahn等人, 2022; Hoffmann等人, 2022; Wei等人, 2022; Huang等人, 2022; Driess等人, 2023; Hu等人, 2023; Zitkovich等人, 2023; Kim等人, 2024; Intelligence等人, 2025; Team and DeepMind, 2025; Intelligence等人, 2026; Zhang等人, 2026)。然而, 仅靠扩展目前似乎还不足以实现高效的长时域规划和行动 (Dziri等人, 2023; Kambhampati等人, 2024; Lin等人, 2025; Park等人, 2025)。相比之下, 基于符号世界模型的符号规划器 (例如 Helmert, 2006; Corrêa等人, 2020; Scala等人, 2020; Seipp等人, 2020; Bonassi等人, 2025; Speck等人, 2025) 已被证明是非常有效的长时域规划器, 但不易扩展到具有多种感官模式和难以建模的底层动力学的设置中。最近, 出现了一系列结合符号和神经方法的双层规划系统 (例如 Srivastava等人, 2014; Konidaris等人, 2018; Garrett等人, 2021; Shen等人, 2026)。不幸的是, 它们反映了符号规划的一些固有缺陷, 难以应对开放世界规划和部分可观测性。在这项工作中, 如图1所示, 我们提出了一种新的长时域规划方法, 结合了底层 (LL) 模仿学习的好处与高层 (HL) 符号抽象、推理和学习的优势。我们的方法并非从符号领域理论生成规划, 而是从LL演示的抽象中提取并归纳泛化符号策略, 并通过行为克隆学习在LL层实现这些符号策略。我们通过创建形式为(πhl, πll)的双层策略来实现我们的方法, 该策略包含一个从多个LL演示中学习的神经策略πll, 以及一个从LL演示的符号抽象中构建的HL符号策略πhl。我们将目标回归 (Waldinger, 1977; Lozano-Perez等人, 1984; Reiter, 1991; Xu等人, 2019a) ——一种前像重写技术——应用于抽象后的符号演示, 以提取一组条件↦行动规则。我们对所得规则进行归纳泛化, 以生成紧凑且表达能力强的HL策略, 这些策略由一阶条件-行动规则组成, 能够在开放世界环境中运行 (Reiter, 2001; Sanner and Boutilier, 2009; Liu等人, 2025)。我们的LL策略πll由一个图神经网络表示 (Scarselli等人, 2009; Kipf and Welling, 2017; Gilmer等人, 2017), 并以πhl返回的行动为条件。我们将我们的方法实现在BISON系统中。我们将BISON与8个基线方法 (涵盖VLA、端到端和符号规划方法) 在8个扩展MetaWorld基准的环境上进行比较 (Yu等人, 2019; McLean等人, 2025)。实验表明, BISON能够解决时域更长、物体数量更多的任务, 而端到端和VLA基线无法解决; 同时它能处理比符号规划基线更复杂的环境动力学。我们的贡献包括:
- 我们引入了BISON, 一种从带HL目标的LL演示中学习双层策略 (πhl, πll) 的方法, 给定领域理论D和标记函数L。
- 我们应用目标回归和归纳泛化来学习紧凑且表达能力强的HL策略πhl, 这些策略能够泛化到任意数量的物体, 并在开放世界和部分可观测环境中运行; 我们通过一个参数少于33,000的紧凑图神经网络πll来学习LL策略。
- 我们在扩展MetaWorld基准的各种基线和环境上进行了总计21,600个情节的实验。结果表明, 与基线相比, BISON实现了卓越的效率、泛化能力和长时域规划能力。当忽略LL执行时, BISON的HL策略能够在一分钟内解决至少包含10,000个物体的HL问题。

## 2 相关工作
#### 使用抽象进行规划与分层强化学习
利用抽象促进高效长时域规划的思想由来已久 (Sacerdoti, 1974; Tate, 1977; Giunchiglia and Walsh, 1992; Bacchus and Yang, 1994; Boutilier and Dearden, 1994; Erol等人, 1996; Dean and Givan, 1997; Nau等人, 2003; Marthi等人, 2008; Konidaris, 2019; Bercher等人, 2019)。强化学习 (RL) 方法也研究了学习和利用层次结构和抽象 (Dayan and Hinton, 1992; Hauskrecht等人, 1998; Sutton等人, 1999; Dietterich, 2000; Li等人, 2006; Konidaris等人, 2018; Abel等人, 2016, 2018; Le等人, 2018) 以提高样本效率。最近, 人们也对利用形式化语言来表示此类抽象以及为RL智能体指定目标产生了兴趣 (Li等人, 2017; Toro Icarte等人, 2018; Camacho等人, 2019; Bozkurt等人, 2020; Illanes等人, 2020; Vaezipoor等人, 2021; Toro Icarte等人, 2022; Voloshin等人, 2022; Qiu等人, 2023; Yalcinkaya等人, 2024; Jackermeier and Abate, 2025; Li等人, 2025a)。我们的工作受到HL抽象使用的启发, 但在问题设置上有所不同: 我们完全从抽象层和底层环境的演示中学习策略, 这些策略能够泛化到比RL和探索方法更长的时域问题。

#### 任务与运动规划
任务与运动规划 (TAMP) 是解决具身AI的常见框架, 它整合了HL规划和LL执行。TAMP方法可分为 (Garrett等人, 2021; Zhao等人, 2025) 交错搜索-然后采样 (Srivastava等人, 2014; Shah等人, 2020; Mendez-Mendez等人, 2023; Shen等人, 2025) 或混合约束满足与优化 (Lozano-Pérez and Kaelbling, 2014; Toussaint, 2015; Dantam等人, 2018) 方法。后来的工作以各种方式采用学习: 预测HL行动的可行性 (Wells等人, 2019; Driess等人, 2020b; Xu等人, 2022; Bouhsain等人, 2023; Yang等人, 2023; Bouhsain等人, 2025), 学习问题变换、搜索启发式或策略 (Chitnis等人, 2016; Kim等人, 2019; Silver等人, 2021a; Curtis等人, 2022b; Khodeir等人, 2023; Mandlekar等人, 2023; Mendez-Mendez等人, 2023; Cieslar等人, 2024; Du等人, 2026), 以及学习旨在模仿双层规划器的策略 (Driess等人, 2020a; McDonald and Hadfield-Menell, 2021; Zhu等人, 2021; Lin等人, 2022)。我们的工作属于后一类, 即学习无需依赖搜索即可解决双层规划问题的策略。我们的工作在此类别中的区别在于, 我们学习LL和HL空间上的双层策略, 以促进高效、可解释和长时域规划, 这与纯端到端方法形成对比。此外, 一些TAMP搜索方法由于依赖符号

相似文章

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

PlanningBench: 生成可扩展且可验证的规划数据,用于评估和训练大型语言模型

arXiv cs.AI

PlanningBench 是一个用于生成可扩展、多样且可验证的规划数据的框架,以评估和训练大型语言模型。该框架采用约束驱动的合成流程,具备自适应难度控制和质量过滤功能。实验表明,前沿大语言模型在处理耦合约束时仍存在困难,而基于 PlanningBench 数据的强化学习能够提升模型在未见过的规划任务上的表现。

FBOS-RL:反馈驱动的双目标协同强化学习

arXiv cs.LG

本文提出FBOS-RL,一个反馈驱动的双目标协同强化学习框架,通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐(EPA)和面向探索的能力培养(ECC)——来提升训练效率和性能上限,优于GRPO在大语言模型对齐和推理中的表现。

经典规划中提升动作模式的可微学习

arXiv cs.AI

本文介绍了一种神经网络架构,该架构从完全观测到的状态轨迹中学习提升动作模式,其中动作参数未观测,旨在实现神经符号模型规划域的鲁棒学习。