constrained-decision-epochs

标签

Cards List
#constrained-decision-epochs

在具有不可观测状态和受限决策周期的马尔可夫匪徒中学习

arXiv cs.LG · 3天前 缓存

本文研究了具有不可观测状态和可能受限决策周期的马尔可夫匪徒中的遗憾最小化问题,引入了一种称为自退化马尔可夫匪徒的推广。作者提出了UCB-NOM算法,该算法实现了接近对数的遗憾,并给出了不依赖于状态数量的界限。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈