learning-from-preferences

#learning-from-preferences

从人类偏好中学习

OpenAI Blog ↗ · 2017-06-13 缓存

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法，智能体通过人类对行为轨迹的比较来学习奖励函数，并使用强化学习来优化推断的目标。该方法展示了很强的样本效率，需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

0 人收藏 0 人点赞