reward-functions

#reward-functions

训练中检测奖励欺骗的RL奖励函数调试器 [P]

Reddit r/MachineLearning ↗ · 3天前

一个调试器，在强化学习训练期间检测奖励函数中的奖励欺骗，帮助开发人员识别和修复问题。

0 人收藏 0 人点赞

#reward-functions

OpenAI Blog ↗ · 2018-08-13 缓存

OpenAI 展示了一项大规模实证研究，研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习，展现了强大的性能，并探讨了特征空间在基于预测的奖励信号中的作用。

0 人收藏 0 人点赞