flow-rl

标签

Cards List
#flow-rl

@seohong_park: RQL 是一种新的、简洁的(离线)流强化学习算法!其主要思想是将流步骤视为MDP步骤,并使用“反向”流来生成后见之明的轨迹…

X AI KOLs Following · 3天前 缓存

RQL是一种用于离线流强化学习的新算法,它将流步骤视为MDP步骤,并使用反向流来生成后见之明轨迹。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈