让语言模型遵循指令
摘要
OpenAI 推出了 InstructGPT,这是一个 GPT-3 的变体,通过人类反馈强化学习 (RLHF) 进行微调,以更好地遵循指令并减少有害输出。一个 1.3B 的 InstructGPT 模型在人类评估者的偏好测试中超过了 175B 的 GPT-3 模型,现已成为 OpenAI API 的默认模型。
暂无内容
查看缓存全文
缓存时间:
2026/04/20 14:55
# 语言模型的指令遵循对齐
来源: https://openai.com/index/instruction-following/
OpenAI API 由 GPT-3 语言模型驱动(https://openai.com/index/gpt-3-apps/),可以通过精心设计的文本提示来执行自然语言任务。但这些模型也可能生成不真实、有毒或反映有害观点的输出。这在一定程度上是因为 GPT-3 是在大规模互联网文本数据集上训练来预测下一个词,而不是安全地执行用户想要的语言任务。换句话说,这些模型与用户的目标并不*对齐*。
为了使我们的模型更安全、更有帮助和更好地对齐,我们使用了一种现有技术,称为人类反馈强化学习(RLHF)(https://openai.com/index/learning-from-human-preferences/)。针对客户提交给 API 的提示,我们的标注员提供了期望模型行为的演示,并对我们模型的多个输出进行排序。然后我们使用这些数据来微调 GPT-3。
生成的 InstructGPT 模型在遵循指令方面远优于 GPT-3。它们也较少编造事实,并在降低有毒输出生成方面有小幅改进。尽管参数数量减少了 100 多倍,我们的标注员仍然更偏好 1.3B 的 InstructGPT 模型的输出,而不是 175B 的 GPT-3 模型的输出。同时,我们证明了在学术 NLP 评估所衡量的性能上,我们不必牺牲 GPT-3 的能力。
这些 InstructGPT 模型在 API 上的测试版已运行超过一年,现在是我们 API 上可访问的默认语言模型。我们相信通过引入人类反馈微调语言模型是改进其安全性和可靠性的强大工具,我们将继续朝这个方向发展。
这是我们多年来一直在追寻的对齐研究第一次被应用到我们的产品中。我们的工作也与最近微调语言模型以使用学术 NLP 数据集遵循指令的研究相关,特别是 FLAN 和 T0.5。
我们工作的一个关键动力是在提高有益性和真实性的同时,减少语言模型的危害和偏见。我们之前在这个方向的一些研究发现,通过在精心策划的人类演示小数据集上微调,我们可以减少有害输出。其他研究关注于过滤预训练数据集、安全相关的控制标记或引导模型生成。我们正在探索这些想法及其他方案,作为我们持续的对齐研究的一部分。
为了训练 InstructGPT 模型,我们的核心技术是人类反馈强化学习(RLHF)(https://openai.com/index/deep-reinforcement-learning-from-human-preferences/),这是我们在早期对齐研究中帮助开创的一种方法。该技术使用人类偏好作为奖励信号来微调我们的模型,这很重要,因为我们要解决的安全和对齐问题是复杂的、主观的,不能完全由简单的自动化指标所捕捉。
我们首先收集了一个关于提交给我们 API 的提示的人工编写演示数据集,并用它来训练我们的监督学习基线。接下来,我们收集了一个更大的 API 提示集合上两个模型输出之间的人工标注比较数据集。然后我们在这个数据集上训练一个奖励模型(RM)来预测我们的标注员会更偏好哪个输出。最后,我们使用这个 RM 作为奖励函数,并使用 PPO 算法(https://openai.com/index/openai-baselines-ppo/)来微调我们的 GPT-3 策略以最大化这个奖励。
思考这个过程的一种方式是,它"解锁"了 GPT-3 已有的但仅通过提示工程难以引发的能力:这是因为我们的训练过程与模型预训练相比,使用的计算和数据不到 2%,因此在教授模型新能力方面的能力有限。
这种方法的一个局限是它引入了"对齐税":仅在客户任务上对齐模型可能会导致它在某些其他学术 NLP 任务上的性能下降。这是不可取的,因为如果我们的对齐技术使模型在人们关心的任务上性能更差,它们就不太可能在实践中被采用。我们找到了一个简单的算法改进,可以最小化这个对齐税:在 RL 微调期间,我们混入用于训练 GPT-3 的原始数据的一小部分,并使用正常的对数似然最大化在这些数据上进行训练。这大致维持了安全性和人类偏好的性能,同时减少了学术任务性能的下降,在某些情况下甚至超过了 GPT-3 基线。
相似文章
OpenAI Blog
OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。
OpenAI Blog
OpenAI 推出了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,它在无需梯度更新或微调的情况下,在多种 NLP 任务上展现出强大的小样本学习能力,代表了语言模型应用范式的转变——仅通过文本交互就能适应新任务。
OpenAI Blog
OpenAI 推出 ChatGPT,这是一个基于 GPT-3.5 的对话型 AI 模型,通过人类反馈强化学习(RLHF)进行微调。该模型旨在回答后续问题、承认错误和拒绝不当请求,在研究预览期间提供免费访问。
OpenAI Blog
OpenAI 推出了 GPT-3.5 Turbo 的微调功能,允许开发者为特定用例定制模型,以获得更好的性能、可控性和输出格式。该更新使得经过微调的 GPT-3.5 Turbo 能够在某些任务上匹配 GPT-4 的性能,同时可将提示词大小减少 90%。
OpenAI Blog
OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。