model-alignment

#model-alignment

让语言模型遵循指令

OpenAI Blog ↗ · 2022-01-27 缓存

OpenAI 推出了 InstructGPT，这是一个 GPT-3 的变体，通过人类反馈强化学习 (RLHF) 进行微调，以更好地遵循指令并减少有害输出。一个 1.3B 的 InstructGPT 模型在人类评估者的偏好测试中超过了 175B 的 GPT-3 模型，现已成为 OpenAI API 的默认模型。

0 人收藏 0 人点赞

model-alignment

让语言模型遵循指令

提交意见反馈