model-alignment

标签

Cards List
#model-alignment

让语言模型遵循指令

OpenAI Blog · 2022-01-27 缓存

OpenAI 推出了 InstructGPT,这是一个 GPT-3 的变体,通过人类反馈强化学习 (RLHF) 进行微调,以更好地遵循指令并减少有害输出。一个 1.3B 的 InstructGPT 模型在人类评估者的偏好测试中超过了 175B 的 GPT-3 模型,现已成为 OpenAI API 的默认模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈