标签
一个调试器,在强化学习训练期间检测奖励函数中的奖励欺骗,帮助开发人员识别和修复问题。
OpenAI 展示了一项大规模实证研究,研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习,展现了强大的性能,并探讨了特征空间在基于预测的奖励信号中的作用。