面向对抗性航天器接近操作中自适应安全关键控制的记忆高效元强化学习

arXiv cs.LG 论文

摘要

本文研究了记忆高效元强化学习架构在对抗性航天器接近操作中用于自适应安全关键控制的性能,发现与LSTM和GRU相比,使用PPO的状态空间模型(如Mamba)在任务完成度、安全性和燃料节约方面表现更优。

arXiv:2606.17414v1 公告类型:新 摘要:自主航天器交会和接近操作(RPO)需要控制器在推力约束下保证安全,同时最小化燃料消耗。输入约束控制障碍函数(ICCBF)为具有执行器约束的非线性系统提供了一种控制方法,构造了一个前向不变的安全集。先前工作表明,通过元强化学习(meta-RL)学习定义ICCBF递归的类$\mathcal{K}$函数,可以为RPO中的安全关键控制提供一种鲁棒的非贪心方法。本文进一步扩展该框架,研究了三种循环网络架构(长短期记忆网络(LSTM)、门控循环单元(GRU)、选择性状态空间模型(Mamba))和两种训练算法(近端策略优化(PPO)和软演员-评论家(SAC))的性能,以确定通过元强化学习调整ICCBF类K函数的最佳设置。除了合作测试案例外,还在存在对抗行为的情况下评估性能,其中目标航天器的行为会恶化追踪航天器的安全性。结果表明,在所有测试的合作和非合作场景中,使用PPO的状态空间模型(如Mamba)在任务完成、安全性和燃料节约方面优于其他架构。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:38

# 面向对抗性航天器近距离操作的自适应安全关键控制的记忆高效元强化学习

来源:https://arxiv.org/html/2606.17414

Alejandro Posadas\-Nava
Richard Linares
副教授兼Rockwell International职业发展教授,麻省理工学院航空宇航系,马萨诸塞州剑桥市马萨诸塞大道77号,邮编02139\-4307。

Minduli Wijayatunga
助理教授,伊利诺伊大学厄巴纳-香槟分校航空航天工程系,南莱特街104号,厄巴纳,IL 61801。

###### 摘要

自主航天器交会与近距离操作(RPO)需要控制器在推力约束下保证安全,同时最小化燃料消耗。输入约束控制屏障函数(ICCBF)为具有执行器约束的非线性系统提供了一种控制方法,能够构建前向不变的安全集。先前的研究表明,通过元强化学习(meta-RL)学习定义ICCBF递归的类-K函数,可以在RPO中实现鲁棒、非贪婪的安全关键控制。本文进一步扩展该框架,通过研究三种循环网络架构(长短期记忆网络LSTM、门控循环单元GRU、选择性状态空间模型Mamba)和两种训练算法(近端策略优化PPO和软演员-评论家SAC)的性能,以确定通过meta-RL调整ICCBF类-K函数的最佳配置。除了合作测试案例外,还在目标航天器表现出恶化追踪航天器安全性的对抗行为存在时评估性能。结果表明,在测试的所有合作与非合作场景中,使用状态空间模型(如Mamba)搭配PPO在任务完成度、安全性和燃料节省方面均优于其他架构。

## 1 引言

自主交会与近距离操作(RPO)日益要求航天器在靠近其特性不确定、在某些情况下甚至主动不合作的物体时进行机动。这要求航天器控制在有限推力、显著模型不确定性、节省推进剂以及在飞行硬件有限计算预算内执行的条件下满足安全保证。传统上将轨迹规划与安全执行分离的制导与控制(G&C)架构在面对这些耦合约束时只能提供较弱的保证。这些方法源自最优控制和数学规划[6 (https://arxiv.org/html/2606.17414#bib.bib24)]。基于庞特里亚金最小值原理的间接方法虽能高精度地产生燃料最优解,但其收敛性对初始化和问题缩放极为敏感[27 (https://arxiv.org/html/2606.17414#bib.bib18)]。基于凸优化和序列凸规划的直接方法在可靠性和速度上做出了一定牺牲[18 (https://arxiv.org/html/2606.17414#bib.bib25), 19 (https://arxiv.org/html/2606.17414#bib.bib26), 5 (https://arxiv.org/html/2606.17414#bib.bib20)],并已发展为在碎片清除和维修任务中计算上可行的轨迹设计与制导流程[25 (https://arxiv.org/html/2606.17414#bib.bib19)],包括在硬件测试平台上验证的端到端近距离交会框架[28 (https://arxiv.org/html/2606.17414#bib.bib23)]。滚动时域方案如模型预测控制(MPC)进一步将约束处理嵌入在线重新优化[24 (https://arxiv.org/html/2606.17414#bib.bib27)]。然而,这些方法提供的保证仅相对于假设模型有效。在未建模动力学、导航误差和参数不确定性下,其最优性和约束满足能力可能下降,鲁棒性必须通过保守裕度、扰动有界或重复重新规划间接恢复。此外,这些公式没有提供从观测历史中推断隐藏物理参数或预测非合作目标行为的原则性机制。

相比之下,强化学习(RL)提供了一套互补的优势。通过在不同动力学、扰动和感知条件的分布上训练闭环策略,RL可以产生在部署时能适应未见条件的控制器,同时在机载上仅需廉价的推理计算。因此,它已被应用于航天器G&C的各个领域,从六自由度行星着陆[16 (https://arxiv.org/html/2606.17414#bib.bib28)]和鲁棒星际轨迹设计[31 (https://arxiv.org/html/2606.17414#bib.bib29)],到近距离操作的自主制导[12 (https://arxiv.org/html/2606.17414#bib.bib30)]。具体在RPO背景下,基于RL的制导已被证明能在远距离交会的纯角度导航下维持目标可观测性、安全裕度和低燃料消耗[26 (https://arxiv.org/html/2606.17414#bib.bib21)]。元强化学习(Meta-RL)进一步扩展了这一点:通过赋予策略记忆能力,智能体可以在一个回合内隐式进行系统辨识,适应隐藏参数和时变环境,而无需显式估计器[13 (https://arxiv.org/html/2606.17414#bib.bib31), 14 (https://arxiv.org/html/2606.17414#bib.bib32)]。然而,RL本身不提供形式化保证。约束通常被编码为奖励惩罚,因此约束满足仅在期望意义上且在训练分布上实现;在近距离接近机动中单次约束违反就可能导致任务失败。这一缺陷催生了安全RL机制,如屏蔽[2 (https://arxiv.org/html/2606.17414#bib.bib33)]和用于航天器对接与检查的运行时保证[11 (https://arxiv.org/html/2606.17414#bib.bib34), 22 (https://arxiv.org/html/2606.17414#bib.bib35)],更广泛地推动了混合架构,其中学习策略与一个带有证书的安全机制配对,无论策略输出什么,该机制都保留硬保证[30 (https://arxiv.org/html/2606.17414#bib.bib22)]。

控制屏障函数(CBF)提供了这样一种机制,通过一个实时二次规划(QP)以最小化修改标称指令的方式,强制执行指定安全集的前向不变性[3 (https://arxiv.org/html/2606.17414#bib.bib11)]。输入约束CBF(ICCBF)通过递归地将屏障与一个类-K函数层次结构组合,构建一个输入可行的内安全集,将此保证扩展到具有有界执行器的系统[1 (https://arxiv.org/html/2606.17414#bib.bib1)]。虽然非常适合解决RPO中的推力限制和仅位置约束,但传统的ICCBF使用固定的类-K函数层次结构。这使得滤波器保守且短视,可能不必要地缩小可行集,消耗过多燃料,并在约束边界附近表现次优。最近的工作通过参数化和*学习*类-K层次结构解决了这一限制。除了使用神经网络表示屏障和证书函数的数据驱动方法[10 (https://arxiv.org/html/2606.17414#bib.bib36)]外,首批工作之一证明了RL可以在统一的两阶段框架内调整非贪婪的ICCBF参数化,在不牺牲安全证书的情况下恢复燃料效率[30 (https://arxiv.org/html/2606.17414#bib.bib22)]。随后通过元强化学习(meta-RL)进行了推广,其中在隐蔽物理参数和扰动的分布上训练循环策略,以在线塑造完整的内安全集[29 (https://arxiv.org/html/2606.17414#bib.bib16)]。该研究确定,一个学习的、基于记忆的参数化相对于固定ICCBF减少了保守性和燃料消耗,同时保持了安全性,其中循环长短期记忆(LSTM)策略在更复杂、部分可观测的检查任务中尤为有效。

本文通过系统研究学习型安全滤波器的设计空间,以确定通过meta-RL调整ICCBF类-K函数的最佳设置,从而扩展该框架。它研究了:

1.  **序列建模架构**。三种循环网络架构,包括先前工作中使用的LSTM、更轻量的门控循环单元(GRU)[8 (https://arxiv.org/html/2606.17414#bib.bib8)]以及具有线性时间推理的选择性状态空间模型(Mamba)[9 (https://arxiv.org/html/2606.17414#bib.bib7)],被相互比较,以确定哪种在机载计算限制内最佳地平衡了安全性、燃料效率和任务完成度,证明该选择是一个决定性的而非偶然的设计决策。
2.  **训练算法**。在相同条件下,将在线策略的近端策略优化(PPO)[20 (https://arxiv.org/html/2606.17414#bib.bib9)]与离线策略、熵正则化的软演员-评论家(SAC)[17 (https://arxiv.org/html/2606.17414#bib.bib10)]进行比较,以表征每种算法所诱导的燃料-安全权衡。
3.  **对抗鲁棒性**。除了合作测试案例外,引入了对抗性对接和对抗性检查场景,其中目标航天器故意机动以恶化追踪航天器的安全性或拒绝传感器覆盖,并评估每种架构-算法配置的鲁棒性。

所有组合都通过蒙特卡洛研究在一维巡航控制、二维对接和三维检查任务上进行了验证,这些任务包含隐藏参数、状态和推力不确定性的分布。对于对接和检查案例,还研究了对抗性行为。

## 2 理论基础

ICCBF是一种用于构建输入可行内安全集的数学框架。它们通过将安全状态空间限制到一个更小的内安全集来考虑执行器限制。这保证了对于该内集内的每个状态,存在一个可行的控制指令,该指令在尊重物理推力约束的同时保持系统及其未来状态安全。虽然传统的ICCBF具有固定的类-K函数,但类-K函数的层次结构可以通过RL来学习,如参考文献Wijayatunga等人[29 (https://arxiv.org/html/2606.17414#bib.bib16)]所做。系统动力学由控制仿射系统控制:

\[
\dot{\mathbf{x}} = \mathbf{f}(\mathbf{x}) + \mathbf{g}(\mathbf{x})\mathbf{u},
\tag{1}
\]

其中\(\mathbf{f}\)和\(\mathbf{g}\)足够光滑,\(\mathbf{x} \in \mathcal{X} \subset \mathbb{R}^n\),\(\mathbf{u} \in \mathcal{U} \subset \mathbb{R}^m\)。这里,\(\mathbf{x}\)是系统状态,\(\mathbf{f(x)}\)是自然漂移,\(\mathbf{g(x)}\)是控制效能(控制影响状态演变的程度),\(\mathbf{u}\)是控制输入。

由于ICCBF的目标是保持系统安全,因此定义了一个安全函数\(h(\mathbf{x})\),它将状态映射到安全分数,并预测环境动力学和控制输入对该分数随时间的影响。李导数描述了函数沿系统轨迹的变化率,使得能够在自然漂移(未施加控制时)和施加控制下预测安全分数的变化。\(h(\mathbf{x})\)相对于\(\mathbf{f(x)}\)和\(\mathbf{g(x)}\)的李导数为:

\[
L_{\mathbf{f}}h(\mathbf{x}) = \nabla h(\mathbf{x}) \cdot \mathbf{f(x)}, \quad L_{\mathbf{g}}h(\mathbf{x}) = \nabla h(\mathbf{x}) \cdot \mathbf{g(x)}.
\tag{2}
\]

使用式(2),安全函数的变化率为:

\[
\dot{h}(\mathbf{x}) = L_{\mathbf{f}}h(\mathbf{x}) + L_{\mathbf{g}}h(\mathbf{x})\mathbf{u}.
\tag{3}
\]

### 2.1 输入约束CBF

由连续可微函数\(h(\mathbf{x})\)表示的安全集本身并不考虑物理执行器限制。在经典控制屏障函数(CBF)理论下,该安全集的前向不变性得到保证,条件是控制输入\(\mathbf{u}\)满足:

\[
L_{\mathbf{f}}h(\mathbf{x}) + L_{\mathbf{g}}h(\mathbf{x})\mathbf{u} \geq -\alpha(h(\mathbf{x})),
\tag{4}
\]

其中\(\alpha\)是一个类-K函数。然而,如果航天器位于安全集边界上且具有高切向动量,则满足该经典条件所需的控制输入可能超过系统的物理推力极限。动力学将使系统在后续时间步无法保持安全。因此,ICCBF框架通过构建一个更严格的条件\(b_N(\mathbf{x})\)来加强标准CBF理论,防止系统以过大动量接近原始安全集的边界。

从基础安全规则\(b_0(\mathbf{x}) = h(\mathbf{x})\)开始,通过计算一个递归函数序列来引入输入感知,该序列评估当前条件相对于系统动力学和输入约束\(\mathcal{U}\),使用一个类-K函数层次结构\(\{\alpha_i\}_{i=0}^{N-1}\):

\[
b_{i+1}(\mathbf{x}) = \inf_{\mathbf{u} \in \mathcal{U}} \left[ L_{\mathbf{f}}b_i(\mathbf{x}) + L_{\mathbf{g}}b_i(\mathbf{x})\mathbf{u} + \alpha_i(b_i(\mathbf{x})) \right].
\tag{5}
\]

递归重复,生成逐步更严格的函数\(b_1, b_2, \dots, b_N\),直到产生一个有界输入下本质前向不变的子集。这个最终收敛的函数定义了可操作的内安全集,并且任何满足下式的局部Lipschitz反馈都强制执行前向不变性:

\[
L_{\mathbf{f}}b_N(\mathbf{x}) + L_{\mathbf{g}}b_N(\mathbf{x})\mathbf{u} \geq -\alpha_N(b_N(\mathbf{x})).
\tag{6}
\]

正是这个学习的层次结构\(\{\alpha_i\}_{i=0}^{N}\)由meta-RL策略参数化。

### 2.2 时间采样执行

系统动力学在连续时间内演化,如式(1)所示。然而,传感和控制更新通常在数字硬件上以离散时刻执行。直观地说,这类似于一个人穿越迷宫,只能每隔几秒短暂睁开眼睛:在闭眼的间隔期间,无法保证他不会撞到墙。

设\(t_k = kT\)为采样时刻,其中\(T>0\)是恒定采样时间步长。在时间采样实现下采用零阶保持器(ZOH),控制输入仅在\(t_k\)处更新,并在更新之间保持恒定,即:

\[
\mathbf{u}(t) = \mathbf{u}_k, \quad t \in [t_k, t_{k+1}), \quad \mathbf{u}_k \in \mathcal{U}
\tag{7}
\]

其中\(\mathbf{u}_k\)由采样状态\(\mathbf{x}_k \triangleq \mathbf{x}(t_k)\)计算得出。结果...

相似文章

通过自适应安全约束实现非平稳环境下的安全持续强化学习

arXiv cs.LG

提出LILAC+框架,用于非平稳环境下的安全持续强化学习,该框架采用三种自适应安全机制:基于上下文的安全约束、适应速度约束和预算到状态的安全执行。在模拟驾驶环境中的评估表明,在分布偏移下,该框架减少了安全违规,同时保持了竞争性的性能。

关于通过元强化学习学习探索的一些思考

OpenAI Blog

OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。