让语言模型遵循指令

OpenAI Blog 2022/01/27 08:00 模型

instruction-following rlhf model-alignment gpt-3 instructgpt fine-tuning

摘要

OpenAI 推出了 InstructGPT，这是一个 GPT-3 的变体，通过人类反馈强化学习 (RLHF) 进行微调，以更好地遵循指令并减少有害输出。一个 1.3B 的 InstructGPT 模型在人类评估者的偏好测试中超过了 175B 的 GPT-3 模型，现已成为 OpenAI API 的默认模型。

暂无内容

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:55

# 语言模型的指令遵循对齐来源: https://openai.com/index/instruction-following/ OpenAI API 由 GPT-3 语言模型驱动(https://openai.com/index/gpt-3-apps/)，可以通过精心设计的文本提示来执行自然语言任务。但这些模型也可能生成不真实、有毒或反映有害观点的输出。这在一定程度上是因为 GPT-3 是在大规模互联网文本数据集上训练来预测下一个词，而不是安全地执行用户想要的语言任务。换句话说，这些模型与用户的目标并不*对齐*。为了使我们的模型更安全、更有帮助和更好地对齐，我们使用了一种现有技术，称为人类反馈强化学习(RLHF)(https://openai.com/index/learning-from-human-preferences/)。针对客户提交给 API 的提示，我们的标注员提供了期望模型行为的演示，并对我们模型的多个输出进行排序。然后我们使用这些数据来微调 GPT-3。生成的 InstructGPT 模型在遵循指令方面远优于 GPT-3。它们也较少编造事实，并在降低有毒输出生成方面有小幅改进。尽管参数数量减少了 100 多倍，我们的标注员仍然更偏好 1.3B 的 InstructGPT 模型的输出，而不是 175B 的 GPT-3 模型的输出。同时，我们证明了在学术 NLP 评估所衡量的性能上，我们不必牺牲 GPT-3 的能力。这些 InstructGPT 模型在 API 上的测试版已运行超过一年，现在是我们 API 上可访问的默认语言模型。我们相信通过引入人类反馈微调语言模型是改进其安全性和可靠性的强大工具，我们将继续朝这个方向发展。这是我们多年来一直在追寻的对齐研究第一次被应用到我们的产品中。我们的工作也与最近微调语言模型以使用学术 NLP 数据集遵循指令的研究相关，特别是 FLAN 和 T0.5。我们工作的一个关键动力是在提高有益性和真实性的同时，减少语言模型的危害和偏见。我们之前在这个方向的一些研究发现，通过在精心策划的人类演示小数据集上微调，我们可以减少有害输出。其他研究关注于过滤预训练数据集、安全相关的控制标记或引导模型生成。我们正在探索这些想法及其他方案，作为我们持续的对齐研究的一部分。为了训练 InstructGPT 模型，我们的核心技术是人类反馈强化学习(RLHF)(https://openai.com/index/deep-reinforcement-learning-from-human-preferences/)，这是我们在早期对齐研究中帮助开创的一种方法。该技术使用人类偏好作为奖励信号来微调我们的模型，这很重要，因为我们要解决的安全和对齐问题是复杂的、主观的，不能完全由简单的自动化指标所捕捉。我们首先收集了一个关于提交给我们 API 的提示的人工编写演示数据集，并用它来训练我们的监督学习基线。接下来，我们收集了一个更大的 API 提示集合上两个模型输出之间的人工标注比较数据集。然后我们在这个数据集上训练一个奖励模型(RM)来预测我们的标注员会更偏好哪个输出。最后，我们使用这个 RM 作为奖励函数，并使用 PPO 算法(https://openai.com/index/openai-baselines-ppo/)来微调我们的 GPT-3 策略以最大化这个奖励。思考这个过程的一种方式是，它"解锁"了 GPT-3 已有的但仅通过提示工程难以引发的能力：这是因为我们的训练过程与模型预训练相比，使用的计算和数据不到 2%，因此在教授模型新能力方面的能力有限。这种方法的一个局限是它引入了"对齐税"：仅在客户任务上对齐模型可能会导致它在某些其他学术 NLP 任务上的性能下降。这是不可取的，因为如果我们的对齐技术使模型在人们关心的任务上性能更差，它们就不太可能在实践中被采用。我们找到了一个简单的算法改进，可以最小化这个对齐税：在 RL 微调期间，我们混入用于训练 GPT-3 的原始数据的一小部分，并使用正常的对数似然最大化在这些数据上进行训练。这大致维持了安全性和人类偏好的性能，同时减少了学术任务性能的下降，在某些情况下甚至超过了 GPT-3 基线。

让语言模型遵循指令

相似文章

我们的对齐研究方法

语言模型是小样本学习器

ChatGPT 介绍

GPT-3.5 Turbo 微调和 API 更新

更好的语言模型及其影响

提交意见反馈