pairwise-preferences

标签

Cards List
#pairwise-preferences

长期决策问题中基于成对偏好的强化学习

arXiv cs.LG · 5天前 缓存

本文介绍了Markov decision contest,这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性,并提出了一种高效学习的近似算法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈