BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
pessimistic-algorithms
标签
Cards
List
#pessimistic-algorithms
轨迹级监督何时允许高效离线强化学习?
Hugging Face Daily Papers
↗
· 2026-06-16
缓存
本文为基于轨迹级结果监督的离线强化学习建立了统计理论,提出了OPAC算法,并刻画了在此类监督下何时能够实现高效学习,以及何时存在根本性障碍。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交