标签
DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化,保持紧凑的ELBO,防止双重漂移现象,在语言和连续控制任务中均能获得更高奖励。
本文开发了一个几何动力学框架,用于模拟预测性AI辅助如何通过稳定自我生成探索之前的轨迹来改变探索性认知,从而导致探索响应性降低、滞后现象以及辅助撤回后的延迟恢复。