从人类偏好中学习

OpenAI Blog 论文

摘要

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

构建安全 AI 系统的一个重要步骤是消除人类编写目标函数的必要性,因为使用复杂目标的简单代理或目标设定略有偏差,都可能导致不良甚至危险的行为。我们与 DeepMind 的安全团队合作开发了一种算法,可以通过告诉系统两个提议行为中哪一个更好来推断人类的真实意图。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:56

# 从人类偏好中学习 Source: https://openai.com/index/learning-from-human-preferences/ 我们的 AI 智能体首先在环境中随机行动。定期地,会向人类展示两个视频片段,记录其行为,人类决定这两个片段中哪一个最接近完成其目标——在这个案例中,是后翻(backflip)。AI 通过找到最能解释人类判断的奖励函数,逐步建立任务目标的模型。然后它使用强化学习(RL)来学习如何实现该目标。随着行为的改进,它继续在最不确定哪个更好的轨迹对上请求人类反馈,进一步完善对目标的理解。 我们的方法展示了很有前景的样本效率——如前所述,后翻视频只需要不到 1000 比特的人类反馈。这耗时不到一个小时的人类评估员时间,而在后台,策略积累了大约 70 小时的总体经验(模拟速度远快于实时)。我们将继续致力于减少人类需要提供的反馈量。您可以在以下视频中看到训练过程的加速版本。

相似文章

收集人类反馈

OpenAI Blog

OpenAI 发布了 RL-Teacher,这是一个开源工具,可以通过人类反馈而不是手工设计的奖励函数来训练 AI 系统,应用于安全 AI 开发和复杂强化学习问题。

通过人类反馈学习总结

OpenAI Blog

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。

请少点“类人”AI智能体

Hacker News Top

一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。