标签
本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。
提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。
GPLD为DreamerV3引入了梯度惩罚潜在动力学正则化器,强制转换学习中的局部平滑性,提高了连续控制任务(尤其是复杂运动)的样本效率。
David Silver强化学习课程第8讲关于整合学习与规划的摘要,涵盖基于模型的强化学习以及AlphaGo使用策略网络和价值网络结合蒙特卡洛树搜索的方法。
本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。