Tag
该论文指出,对于当前的编码智能体,验证解决方案比生成解决方案更为困难,且任何固定的奖励函数都无法随着能力增长而持续有效。作者通过四种奖励构建的实验表明,针对性的验证设计可以抑制奖励黑客行为并提升任务完成质量。