标签
本文指出了连续奖励模型在强化学习中的过度敏感问题,即同等质量的回复被赋予不同的分数,并提出了一种使用蒙特卡洛dropout的离散化技术,以减少这种过度敏感,同时保持区分能力,从而得到更好的策略并减少奖励破解。