learning-from-preferences

标签

Cards List
#learning-from-preferences

从人类偏好中学习

OpenAI Blog · 2017-06-13 缓存

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈