经典规划中提升动作模式的可微学习

arXiv cs.AI 论文

摘要

本文介绍了一种神经网络架构,该架构从完全观测到的状态轨迹中学习提升动作模式,其中动作参数未观测,旨在实现神经符号模型规划域的鲁棒学习。

arXiv:2605.13282v1 公告类型:新 摘要:经典规划器可以有效解决用STRIPS或PDDL表示的非常大的确定性MDP,其中状态由关于对象和关系的原子集合表示,而提升动作模式则添加或删除这些原子。这种紧凑表示产生了强大的搜索启发式,并为结构泛化提供了理想设置,因为提升的关系和动作模式可以产生无限多的域实例。一个核心挑战是从数据中学习这些关系和动作模式,最近的研究使用不同类型的观测来解决这个问题。在这项工作中,我们开发了一种新颖的神经网络架构,用于从轨迹中学习动作模式,其中状态被完全观测但动作参数未被观测。该问题是一个简化,但却是从图像序列和动作标签中学习规划域的重要一步,我们旨在以近乎完美的方式解决这个简化。挑战在于同时学习动作模式并从观测到的状态变化中识别动作参数。我们的方法产生了一个鲁棒的可微组件,然后可以将其集成到更大的神经符号模型中。我们在各种规划域上评估该架构,其中学到的提升动作模式必须恢复真实结构。此外,我们报告了关于观测噪声鲁棒性以及与基于槽的动态模型相关的变体的实验。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:15

# 面向经典规划的可微分提升式动作模式学习
来源:https://arxiv.org/abs/2605.13282
查看 PDF (https://arxiv.org/pdf/2605.13282)

> 摘要:经典规划器能够高效求解用 STRIPS 或 PDDL 表示的大型确定性 MDP,其中状态是对象和关系上的一组原子事实,而提升式动作模式负责添加或删除这些原子事实。这种紧凑表示方法能产生强大的搜索启发式,并为结构泛化提供了理想环境,因为提升式关系和动作模式可衍生出无限多个领域实例。一个核心挑战是从数据中学习这些关系和动作模式,近期已有方法利用不同类型的观测数据来应对该问题。本文提出一种新型神经网络架构,用于从轨迹中学习动作模式——其中状态可完全观测,但动作参数不可观测。该问题是学习规划领域的一个简化版本,但却是从图像序列和动作标签中学习规划领域的重要一步,我们的目标是近乎完美地解决这一简化问题。难点在于:在从观测到的状态变化中识别动作参数的同时,学习动作模式。我们的方法提供了一个稳健的可微分组件,可集成到更大的神经符号模型中。我们在多个规划领域上评估了该架构,要求学习到的提升式动作模式必须恢复出真实结构。此外,我们还报告了关于观测噪声鲁棒性及与基于槽位动力学模型变体相关的实验。

## 提交历史

来自:Jonas Reiter [查看邮箱 (https://arxiv.org/show-email/ce83a3d6/2605.13282)] **[v1]** 2026年5月13日星期三 09:59:49 UTC (374 KB)

相似文章

神经启发的逆学习用于规划与控制

arXiv cs.AI

本文介绍了一种名为Inverter的神经启发式框架,该框架利用逆学习(Inverse Learning, IL)实现快速高效的规划与控制,在D4RL基准测试和量子门合成上取得了显著改进,推理计算量降低了数个数量级。

通过语言表征塑造图式:拓展LLM智能的下一前沿

Hugging Face Daily Papers

本文指出,设计先进的语言表征以塑造认知图式,是在不扩展参数规模的前提下拓展LLM智能的关键前沿。文章提供了形式化定义与实证证据,表明不同的语言结构会显著影响模型性能与内部特征激活。

基于强化学习的智能体Transformer可证明地学会搜索

arXiv cs.LG

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明,一个双头Transformer可以实现深度优先搜索,并且在深度分阶段课程下,这种机制会自然地从稀疏奖励信号中涌现。