diffusion-policy

#diffusion-policy

无漂移扩散策略优化

arXiv cs.LG ↗ · 18小时前缓存

DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化，保持紧凑的ELBO，防止双重漂移现象，在语言和连续控制任务中均能获得更高奖励。

0 人收藏 0 人点赞

#diffusion-policy

X AI KOLs Following ↗ · 2026-06-03 缓存

介绍 StereoPolicy 框架，该框架利用同步立体图像对来提升机器人操作策略的几何推理能力，避免了 RGB-D 和点云的脆弱性。它可以集成到基于扩散和视觉-语言-行动的策略中，在仿真和现实任务中均展现出稳定的改进效果。

0 人收藏 0 人点赞

#diffusion-policy

arXiv cs.AI ↗ · 2026-06-02 缓存

本文介绍了参数化扩散策略（Parameterized Diffusion Policy, PDP）框架，该框架通过以低维潜在参数为条件，使扩散策略变得可控，从而实现无需重新训练即可进行平滑的行为插值和自适应。在仿真和真实机器人实验中，该方法在复杂的多模态机器人任务上展现了更优的性能。

0 人收藏 0 人点赞

#diffusion-policy

arXiv cs.LG ↗ · 2026-05-27 缓存

提出模型基扩散策略优化（MBDPO）框架，该框架通过扩散策略表示统一了世界模型中的搜索与策略优化，在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。

0 人收藏 0 人点赞

#diffusion-policy

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文介绍了频率引导算子（Frequency Guidance Operator, FGO），一种用于扩散策略的方法，通过引导噪声样本通过中间子频率流形来平滑动作生成，从而提升机器人操作任务的性能。

0 人收藏 0 人点赞