safe-planning

标签

Cards List
#safe-planning

DiRecT: 基于滚动时域去噪的安全扩散规划

arXiv cs.LG · 4天前 缓存

DiRecT提出了一种免训练的安全扩散规划算法,通过滚动时域去噪仅在最终干净轨迹上施加约束,相比于现有方法提升了安全性和性能。

0 人收藏 0 人点赞
#safe-planning

不完善的世界模型是可被利用的

arXiv cs.AI · 2026-05-18 缓存

本文形式化了强化学习中的模型利用问题,证明在大策略集中该问题不可避免,并在奖励破解与模型利用之间建立了理论桥梁。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈