BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
flow-rl
标签
Cards
List
#flow-rl
@seohong_park: RQL 是一种新的、简洁的(离线)流强化学习算法!其主要思想是将流步骤视为MDP步骤,并使用“反向”流来生成后见之明的轨迹…
X AI KOLs Following
↗
· 3天前
缓存
RQL是一种用于离线流强化学习的新算法,它将流步骤视为MDP步骤,并使用反向流来生成后见之明轨迹。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交