标签
本文研究了记忆高效元强化学习架构在对抗性航天器接近操作中用于自适应安全关键控制的性能,发现与LSTM和GRU相比,使用PPO的状态空间模型(如Mamba)在任务完成度、安全性和燃料节约方面表现更优。