标签
DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化,保持紧凑的ELBO,防止双重漂移现象,在语言和连续控制任务中均能获得更高奖励。
介绍 StereoPolicy 框架,该框架利用同步立体图像对来提升机器人操作策略的几何推理能力,避免了 RGB-D 和点云的脆弱性。它可以集成到基于扩散和视觉-语言-行动的策略中,在仿真和现实任务中均展现出稳定的改进效果。
本文介绍了参数化扩散策略(Parameterized Diffusion Policy, PDP)框架,该框架通过以低维潜在参数为条件,使扩散策略变得可控,从而实现无需重新训练即可进行平滑的行为插值和自适应。在仿真和真实机器人实验中,该方法在复杂的多模态机器人任务上展现了更优的性能。
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。
本文介绍了频率引导算子(Frequency Guidance Operator, FGO),一种用于扩散策略的方法,通过引导噪声样本通过中间子频率流形来平滑动作生成,从而提升机器人操作任务的性能。