标签
本文研究了记忆高效元强化学习架构在对抗性航天器接近操作中用于自适应安全关键控制的性能,发现与LSTM和GRU相比,使用PPO的状态空间模型(如Mamba)在任务完成度、安全性和燃料节约方面表现更优。
本文提出了动作条件风险门控(Action-Conditioned Risk Gating),一种用于部分可观测下风险敏感控制的轻量级强化学习方法,该方法利用紧凑的有限历史代理状态和基于动作条件的近期风险预测器来平衡安全性和性能。