rubric-based-rewards

#rubric-based-rewards

基于评分标准的强化学习中的奖励黑客问题

Hugging Face Daily Papers ↗ · 2天前缓存

本文研究了基于评分标准的强化学习中的奖励黑客现象，分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法，并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。

0 人收藏 0 人点赞