标签
DiRecT提出了一种免训练的安全扩散规划算法,通过滚动时域去噪仅在最终干净轨迹上施加约束,相比于现有方法提升了安全性和性能。
本文形式化了强化学习中的模型利用问题,证明在大策略集中该问题不可避免,并在奖励破解与模型利用之间建立了理论桥梁。