pessimistic-algorithms

标签

Cards List
#pessimistic-algorithms

轨迹级监督何时允许高效离线强化学习?

Hugging Face Daily Papers · 2026-06-16 缓存

本文为基于轨迹级结果监督的离线强化学习建立了统计理论,提出了OPAC算法,并刻画了在此类监督下何时能够实现高效学习,以及何时存在根本性障碍。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈