meta-reasoning

#meta-reasoning

寻找思考的时间：实时强化学习中的规划预算学习

arXiv cs.LG ↗ · 2天前缓存

本文引入了可变延迟实时强化学习，其中智能体决定在环境持续运行的情况下需要多长时间的思考，并提出了一种轻量级的门控策略来选择基于状态的规划预算，在多个实时游戏中优于固定预算和启发式基线。

0 人收藏 0 人点赞