stabilization

标签

Cards List
#stabilization

无漂移扩散策略优化

arXiv cs.LG · 15小时前 缓存

DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化,保持紧凑的ELBO,防止双重漂移现象,在语言和连续控制任务中均能获得更高奖励。

0 人收藏 0 人点赞
#stabilization

预测性辅助与探索性压缩的时间动态

arXiv cs.AI · 5天前 缓存

本文开发了一个几何动力学框架,用于模拟预测性AI辅助如何通过稳定自我生成探索之前的轨迹来改变探索性认知,从而导致探索响应性降低、滞后现象以及辅助撤回后的延迟恢复。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈