野外中的错误奖励函数

OpenAI Blog 2016/12/21 08:00 新闻

摘要

OpenAI 讨论了强化学习中错误奖励函数的问题，其中智能体会利用奖励规范中的漏洞，而不是实现预期目标。本文通过赛车游戏示例探索了这一问题，并提出了包括从演示学习、人类反馈和迁移学习等研究方向，以减轻此类问题。

强化学习算法可能会以令人惊讶的、违反直觉的方式失败。在这篇文章中，我们将探讨一种失败模式，即你错误地指定了你的奖励函数。

查看缓存全文

缓存时间: 2026/04/20 14:45

# 野外发现的有缺陷的奖励函数来源：https://openai.com/index/faulty-reward-functions/ RL 智能体找到了一个隔离的泻湖，在那里它可以绕一个大圆圈转圈，并反复击倒三个目标，其计时方式确保总是在目标重新出现时立即击倒它们。尽管智能体反复着火、与其他船碰撞并在赛道上逆向行驶，但它仍然设法使用这一策略获得比正常完成赛道更高的得分。该智能体的平均得分比人类玩家高出 20%。虽然在视频游戏的背景下这种行为是无害且有趣的，但它指出了强化学习的一个更普遍的问题：准确捕捉我们希望智能体执行的操作通常很困难或不可行，因此我们经常最终使用不完美但易于衡量的代理。通常这效果很好，但有时会导致不期望的甚至危险的行为。更广泛地说，这违反了系统应该可靠和可预测的基本工程原则。我们在研究论文《AI 安全的具体问题》(https://openai.com/index/concrete-ai-safety-problems/) 中也更深入地探讨了这一问题。我们如何避免这样的问题？除了在设计奖励函数时谨慎外，OpenAI 正在探索的几个研究方向可能有助于减少奖励函数指定错误的情况： - 从演示学习允许我们避免直接指定奖励，而只需学会模仿人类完成任务的方式。在这个例子中，由于绝大多数人会寻求完成赛道，我们的 RL 算法也会这样做。 - 除了人类演示外，我们还可以通过评估情节的质量，甚至以交互方式与智能体共享控制来纳入人类反馈 (https://medium.com/ai-control/efficient-feedback-a347748b1557#.exjnsupts)。很可能少量的评估性反馈本可以阻止该智能体绕圈行驶。 - 可以使用迁移学习在许多类似游戏上进行训练，并为此游戏推断一个"常识"奖励函数。这样的奖励函数可能会基于典型游戏具有这样的目标这一事实来优先考虑完成比赛，而不是关注此特定游戏奖励函数的特殊性。这更类似于人类会如何玩游戏。这些方法可能有其自身的缺点。例如，迁移学习涉及基于来自许多类似环境的奖励函数为新环境推断奖励函数。这种推断本身可能有缺陷——例如，在许多赛车视频游戏上训练的智能体，其中驾驶离开道路有很小的惩罚，可能会错误地得出结论，认为在新的、更高风险的设置中驾驶离开道路并不是大问题。更微妙的是，如果奖励推断过程涉及神经网络，该网络中的对抗样本 (https://arxiv.org/abs/1412.6572) 可能导致奖励函数出现"不自然"的高奖励区域，这些区域不对应于任何合理的真实世界目标。解决这些问题将很复杂。我们的希望是 Universe 能够使我们既能够快速发现和解决新的失败模式，最终开发出行为我们可以真正信任的系统。

野外中的错误奖励函数

相似文章

大模型时代的奖励黑客：机制、涌现错位与挑战

从仿真泛化

基于预测奖励的强化学习

从单个演示中学习蒙特祖玛的复仇

通过基于规则的奖励改进模型安全行为

提交意见反馈