off-policy-rl

标签

Cards List
#off-policy-rl

@svlevine: 一种使用扩散进行离策略强化学习的新方法:如果我们有离策略数据,我们需要找出扩散后期…

X AI KOLs Following · 3天前 缓存

一种新的离策略强化学习方法,使用扩散模型,通过反转扩散过程来处理离策略数据。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈