value-learning

标签

Cards List
#value-learning

考虑修改的价值学习用于强化学习中的奖励黑客缓解

arXiv cs.LG · 12小时前 缓存

提出考虑修改的价值学习(MCVL),一种针对离策略基于价值的强化学习的防护措施,通过评估每个转移对冻结的自举回报估计器的影响,在允许其进入训练之前进行筛选,从而缓解奖励黑客。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈