经典规划中提升动作模式的可微学习

arXiv cs.AI 2026/05/14 04:00 论文

neural-network action-schemas classical-planning strips pddl neuro-symbolic learning-from-traces

摘要

本文介绍了一种神经网络架构，该架构从完全观测到的状态轨迹中学习提升动作模式，其中动作参数未观测，旨在实现神经符号模型规划域的鲁棒学习。

arXiv:2605.13282v1 公告类型：新摘要：经典规划器可以有效解决用STRIPS或PDDL表示的非常大的确定性MDP，其中状态由关于对象和关系的原子集合表示，而提升动作模式则添加或删除这些原子。这种紧凑表示产生了强大的搜索启发式，并为结构泛化提供了理想设置，因为提升的关系和动作模式可以产生无限多的域实例。一个核心挑战是从数据中学习这些关系和动作模式，最近的研究使用不同类型的观测来解决这个问题。在这项工作中，我们开发了一种新颖的神经网络架构，用于从轨迹中学习动作模式，其中状态被完全观测但动作参数未被观测。该问题是一个简化，但却是从图像序列和动作标签中学习规划域的重要一步，我们旨在以近乎完美的方式解决这个简化。挑战在于同时学习动作模式并从观测到的状态变化中识别动作参数。我们的方法产生了一个鲁棒的可微组件，然后可以将其集成到更大的神经符号模型中。我们在各种规划域上评估该架构，其中学到的提升动作模式必须恢复真实结构。此外，我们报告了关于观测噪声鲁棒性以及与基于槽的动态模型相关的变体的实验。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:15

# 面向经典规划的可微分提升式动作模式学习
来源：https://arxiv.org/abs/2605.13282
查看 PDF (https://arxiv.org/pdf/2605.13282)

> 摘要：经典规划器能够高效求解用 STRIPS 或 PDDL 表示的大型确定性 MDP，其中状态是对象和关系上的一组原子事实，而提升式动作模式负责添加或删除这些原子事实。这种紧凑表示方法能产生强大的搜索启发式，并为结构泛化提供了理想环境，因为提升式关系和动作模式可衍生出无限多个领域实例。一个核心挑战是从数据中学习这些关系和动作模式，近期已有方法利用不同类型的观测数据来应对该问题。本文提出一种新型神经网络架构，用于从轨迹中学习动作模式——其中状态可完全观测，但动作参数不可观测。该问题是学习规划领域的一个简化版本，但却是从图像序列和动作标签中学习规划领域的重要一步，我们的目标是近乎完美地解决这一简化问题。难点在于：在从观测到的状态变化中识别动作参数的同时，学习动作模式。我们的方法提供了一个稳健的可微分组件，可集成到更大的神经符号模型中。我们在多个规划领域上评估了该架构，要求学习到的提升式动作模式必须恢复出真实结构。此外，我们还报告了关于观测噪声鲁棒性及与基于槽位动力学模型变体相关的实验。

## 提交历史

来自：Jonas Reiter [查看邮箱 (https://arxiv.org/show-email/ce83a3d6/2605.13282)] **[v1]** 2026年5月13日星期三 09:59:49 UTC (374 KB)

经典规划中提升动作模式的可微学习

相似文章

在符号世界模型上学习双层策略以实现长时域规划

神经启发的逆学习用于规划与控制

基于大语言模型智能体进行分层广义规划时的策略分解学习与复用

通过语言表征塑造图式：拓展LLM智能的下一前沿

基于强化学习的智能体Transformer可证明地学会搜索

提交意见反馈