从人类偏好中学习

OpenAI Blog 2017/06/13 07:00 论文

摘要

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法，智能体通过人类对行为轨迹的比较来学习奖励函数，并使用强化学习来优化推断的目标。该方法展示了很强的样本效率，需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

构建安全 AI 系统的一个重要步骤是消除人类编写目标函数的必要性，因为使用复杂目标的简单代理或目标设定略有偏差，都可能导致不良甚至危险的行为。我们与 DeepMind 的安全团队合作开发了一种算法，可以通过告诉系统两个提议行为中哪一个更好来推断人类的真实意图。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:56

# 从人类偏好中学习 Source: https://openai.com/index/learning-from-human-preferences/ 我们的 AI 智能体首先在环境中随机行动。定期地，会向人类展示两个视频片段，记录其行为，人类决定这两个片段中哪一个最接近完成其目标——在这个案例中，是后翻（backflip）。AI 通过找到最能解释人类判断的奖励函数，逐步建立任务目标的模型。然后它使用强化学习（RL）来学习如何实现该目标。随着行为的改进，它继续在最不确定哪个更好的轨迹对上请求人类反馈，进一步完善对目标的理解。我们的方法展示了很有前景的样本效率——如前所述，后翻视频只需要不到 1000 比特的人类反馈。这耗时不到一个小时的人类评估员时间，而在后台，策略积累了大约 70 小时的总体经验（模拟速度远快于实时）。我们将继续致力于减少人类需要提供的反馈量。您可以在以下视频中看到训练过程的加速版本。

从人类偏好中学习

相似文章

收集人类反馈

通过人类反馈学习总结

请少点“类人”AI智能体

从单个演示中学习蒙特祖玛的复仇

基于预测奖励的强化学习

提交意见反馈