elbo

标签

Cards List
#elbo

无漂移扩散策略优化

arXiv cs.LG · 18小时前 缓存

DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化,保持紧凑的ELBO,防止双重漂移现象,在语言和连续控制任务中均能获得更高奖励。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈