野外中的错误奖励函数
摘要
OpenAI 讨论了强化学习中错误奖励函数的问题,其中智能体会利用奖励规范中的漏洞,而不是实现预期目标。本文通过赛车游戏示例探索了这一问题,并提出了包括从演示学习、人类反馈和迁移学习等研究方向,以减轻此类问题。
强化学习算法可能会以令人惊讶的、违反直觉的方式失败。在这篇文章中,我们将探讨一种失败模式,即你错误地指定了你的奖励函数。
查看缓存全文
缓存时间: 2026/04/20 14:45
# 野外发现的有缺陷的奖励函数
来源:https://openai.com/index/faulty-reward-functions/
RL 智能体找到了一个隔离的泻湖,在那里它可以绕一个大圆圈转圈,并反复击倒三个目标,其计时方式确保总是在目标重新出现时立即击倒它们。尽管智能体反复着火、与其他船碰撞并在赛道上逆向行驶,但它仍然设法使用这一策略获得比正常完成赛道更高的得分。该智能体的平均得分比人类玩家高出 20%。
虽然在视频游戏的背景下这种行为是无害且有趣的,但它指出了强化学习的一个更普遍的问题:准确捕捉我们希望智能体执行的操作通常很困难或不可行,因此我们经常最终使用不完美但易于衡量的代理。通常这效果很好,但有时会导致不期望的甚至危险的行为。更广泛地说,这违反了系统应该可靠和可预测的基本工程原则。我们在研究论文《AI 安全的具体问题》(https://openai.com/index/concrete-ai-safety-problems/) 中也更深入地探讨了这一问题。
我们如何避免这样的问题?除了在设计奖励函数时谨慎外,OpenAI 正在探索的几个研究方向可能有助于减少奖励函数指定错误的情况:
- 从演示学习允许我们避免直接指定奖励,而只需学会模仿人类完成任务的方式。在这个例子中,由于绝大多数人会寻求完成赛道,我们的 RL 算法也会这样做。
- 除了人类演示外,我们还可以通过评估情节的质量,甚至以交互方式与智能体共享控制来纳入人类反馈 (https://medium.com/ai-control/efficient-feedback-a347748b1557#.exjnsupts)。很可能少量的评估性反馈本可以阻止该智能体绕圈行驶。
- 可以使用迁移学习在许多类似游戏上进行训练,并为此游戏推断一个"常识"奖励函数。这样的奖励函数可能会基于典型游戏具有这样的目标这一事实来优先考虑完成比赛,而不是关注此特定游戏奖励函数的特殊性。这更类似于人类会如何玩游戏。
这些方法可能有其自身的缺点。例如,迁移学习涉及基于来自许多类似环境的奖励函数为新环境推断奖励函数。这种推断本身可能有缺陷——例如,在许多赛车视频游戏上训练的智能体,其中驾驶离开道路有很小的惩罚,可能会错误地得出结论,认为在新的、更高风险的设置中驾驶离开道路并不是大问题。更微妙的是,如果奖励推断过程涉及神经网络,该网络中的对抗样本 (https://arxiv.org/abs/1412.6572) 可能导致奖励函数出现"不自然"的高奖励区域,这些区域不对应于任何合理的真实世界目标。
解决这些问题将很复杂。我们的希望是 Universe 能够使我们既能够快速发现和解决新的失败模式,最终开发出行为我们可以真正信任的系统。
相似文章
大模型时代的奖励黑客:机制、涌现错位与挑战
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。
基于评分标准的强化学习中的奖励黑客问题
本文研究了基于评分标准的强化学习中的奖励黑客现象,分析了训练验证器与评估指标之间的分歧。文章提出了一种针对“自我内化差距”的诊断方法,并证明更强的验证能力虽然能减少但无法完全消除奖励黑客问题。
奖励作为具身世界模型的智能体
本文介绍了奖励作为智能体(Reward as an Agent)和DynDiff-GRPO,以解决具身世界模型中强化学习的奖励黑客攻击和有限探索问题,实现了显著的准确率提升。
@akshay_pachaar: Karpathy关于强化学习的预测正在成真!他指出奖励函数不可靠,并认为单一的奖励…
Karpathy对强化学习中奖励函数的批评被OpenPipe的ART框架通过RULER解决,该框架允许使用自然语言定义奖励并由LLM评估,取代了手动奖励工程。
当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化
本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。