pairwise-preferences

#pairwise-preferences

长期决策问题中基于成对偏好的强化学习

arXiv cs.LG ↗ · 6天前缓存

本文介绍了Markov decision contest，这是一种用于基于成对偏好的强化学习的新问题模型。它证明了平稳策略的最优性保证、在P中的精确可解性，并提出了一种高效学习的近似算法。

0 人收藏 0 人点赞