标签
本文研究了记忆高效元强化学习架构在对抗性航天器接近操作中用于自适应安全关键控制的性能,发现与LSTM和GRU相比,使用PPO的状态空间模型(如Mamba)在任务完成度、安全性和燃料节约方面表现更优。
本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。
OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。