BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
value-learning
标签
Cards
List
#value-learning
考虑修改的价值学习用于强化学习中的奖励黑客缓解
arXiv cs.LG
↗
· 12小时前
缓存
提出考虑修改的价值学习(MCVL),一种针对离策略基于价值的强化学习的防护措施,通过评估每个转移对冻结的自举回报估计器的影响,在允许其进入训练之前进行筛选,从而缓解奖励黑客。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交