训练中检测奖励欺骗的RL奖励函数调试器 [P]

Reddit r/MachineLearning 工具

摘要

一个调试器,在强化学习训练期间检测奖励函数中的奖励欺骗,帮助开发人员识别和修复问题。

暂无内容
查看原文

相似文章

基于标准的强化学习中奖励黑客行为的复现、分析与检测

Hugging Face Daily Papers

本文介绍了CHERRL,一个用于研究基于标准的强化学习中奖励黑客行为的可控环境。在该环境中,可以注入LLM作为评判者的偏见,以复现和分析黑客行为。作者还探索了一种基于智能体的系统,用于从训练日志中自动检测奖励黑客行为的开始。

基于评分标准的强化学习中的奖励黑客问题

Hugging Face Daily Papers

本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。