标签
本文介绍了 ACSAC,一种强化学习方法,它使用带有因果 Transformer Q 网络的自适应 Chunk Size Actor-Critic 算法来处理长期限、稀疏奖励任务。通过根据状态需求动态调整动作 Chunk Size,该方法在操控任务中展示了最先进的性能。
本文提出了一种利用时序自注意力进行元控制的架构,旨在对具有不可观测记忆状态的欧拉-拉格朗日系统进行自适应控制。在2自由度机械臂上的实验表明,该方法在追踪性能上优于基线方法,同时揭示了在长记忆机制下的失效模式。