off-policy-rl

标签

#off-policy-rl

@svlevine: 一种使用扩散进行离策略强化学习的新方法：如果我们有离策略数据，我们需要找出扩散后期…

X AI KOLs Following ↗ · 3天前缓存

一种新的离策略强化学习方法，使用扩散模型，通过反转扩散过程来处理离策略数据。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈