标签
OpenAI 推出了 InstructGPT,这是一个 GPT-3 的变体,通过人类反馈强化学习 (RLHF) 进行微调,以更好地遵循指令并减少有害输出。一个 1.3B 的 InstructGPT 模型在人类评估者的偏好测试中超过了 175B 的 GPT-3 模型,现已成为 OpenAI API 的默认模型。