从人类偏好中学习

OpenAI Blog 论文

摘要

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

构建安全 AI 系统的一个重要步骤是消除人类编写目标函数的必要性,因为使用复杂目标的简单代理或目标设定略有偏差,都可能导致不良甚至危险的行为。我们与 DeepMind 的安全团队合作开发了一种算法,可以通过告诉系统两个提议行为中哪一个更好来推断人类的真实意图。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:56

# 从人类偏好中学习 Source: https://openai.com/index/learning-from-human-preferences/ 我们的 AI 智能体首先在环境中随机行动。定期地,会向人类展示两个视频片段,记录其行为,人类决定这两个片段中哪一个最接近完成其目标——在这个案例中,是后翻(backflip)。AI 通过找到最能解释人类判断的奖励函数,逐步建立任务目标的模型。然后它使用强化学习(RL)来学习如何实现该目标。随着行为的改进,它继续在最不确定哪个更好的轨迹对上请求人类反馈,进一步完善对目标的理解。 我们的方法展示了很有前景的样本效率——如前所述,后翻视频只需要不到 1000 比特的人类反馈。这耗时不到一个小时的人类评估员时间,而在后台,策略积累了大约 70 小时的总体经验(模拟速度远快于实时)。我们将继续致力于减少人类需要提供的反馈量。您可以在以下视频中看到训练过程的加速版本。

相似文章

收集人类反馈

OpenAI Blog

OpenAI 发布了 RL-Teacher,这是一个开源工具,可以通过人类反馈而不是手工设计的奖励函数来训练 AI 系统,应用于安全 AI 开发和复杂强化学习问题。

通过人类反馈学习总结

OpenAI Blog

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。

请少点“类人”AI智能体

Hacker News Top

一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。

从单个演示中学习蒙特祖玛的复仇

OpenAI Blog

OpenAI 展示了一种通过单个人类演示来训练强化学习智能体玩蒙特祖玛的复仇的方法,通过课程学习和仔细的超参数调优来解决稀疏奖励的挑战。该方法在这款臭名昭著的 Atari 游戏上取得了强劲表现,但在其他游戏上的泛化能力有限。

基于预测奖励的强化学习

OpenAI Blog

OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。