meta-reasoning

标签

Cards List
#meta-reasoning

寻找思考的时间:实时强化学习中的规划预算学习

arXiv cs.LG · 2天前 缓存

本文引入了可变延迟实时强化学习,其中智能体决定在环境持续运行的情况下需要多长时间的思考,并提出了一种轻量级的门控策略来选择基于状态的规划预算,在多个实时游戏中优于固定预算和启发式基线。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈