基于人类偏好微调GPT-2

OpenAI Blog 2019/09/19 07:00 论文

fine-tuning human-feedback gpt-2 reinforcement-learning nlp summarization rlhf

摘要

OpenAI展示了使用人类偏好反馈对GPT-2（774M参数）进行微调，用于文本续写和摘要任务，风格任务需要5000个标签，摘要任务需要60000个标签，模型达到了86-88%的人类偏好率，但揭示了标注者启发式利用的问题。

我们针对各种任务，使用人类反馈微调了774M参数的GPT-2语言模型，成功匹配了外部人类标注者的偏好，尽管这些偏好并不总是与我们自己的偏好一致。具体来说，在摘要任务中，标注者更偏好从输入中直接复制整句（我们只要求他们确保准确性），因此我们的模型学会了复制。摘要任务需要60000个人类标签；而更简单的续写文本（多种风格）任务仅需要5000个。我们的动机是让安全技术更接近“机器与人类对话”这一通用任务，我们认为这是提取人类价值观信息的关键。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:46

# 基于人类偏好的 GPT-2 微调来源：https://openai.com/index/fine-tuning-gpt-2/ OpenAI我们利用人类反馈对 774M 参数的 GPT-2 语言模型进行了微调，使其能够成功匹配外部人类标注员的偏好，尽管这些偏好并不总是与我们自己的相符。具体来说，在摘要任务中，标注员更倾向于从输入中逐字复制的句子（我们只要求他们确保准确性），因此我们的模型学会了复制。摘要任务需要 6 万个人类标签；而更简单的任务（以不同风格续写文本）仅需 5000 个标签。我们的动机是将安全技术推向“机器与人类对话”这一通用任务，我们认为这对于提取人类价值观信息至关重要。我们相信语言是使强化学习在实际任务中既实用又安全的关键要素。先前的工作（https://openai.com/index/learning-from-human-preferences/）(opens in a new window)（https://arxiv.org/abs/1811.06521）关于学习人类偏好模型的研究主要集中在简单的模拟环境（Atari 游戏或机器人任务）中，这些环境无法捕捉语言的复杂性。语言也是诸如放大（https://openai.com/index/learning-complex-goals-with-iterated-amplification/）和辩论（https://openai.com/index/debate/）等算法的必要组成部分，这些算法针对偏好背后的推理过程。这项工作将人类偏好学习应用于几个自然语言任务：利用 BookCorpus (opens in a new window) (https://github.com/soskek/bookcorpus) 进行积极情感或物理描述性语言的文本续写，以及利用 TL;DR (opens in a new window) (https://www.aclweb.org/anthology/W17-4508) 和 CNN/Daily Mail (opens in a new window) (https://github.com/abisee/cnn-dailymail) 数据集进行内容摘要。这些任务都可以看作是文本补全问题：给定一段文本 X，我们询问应该跟随什么文本 Y。A (https://openai.com/index/fine-tuning-gpt-2/#citation-bottom-A) 我们从预训练语言模型（774M 参数的 GPT-2 版本 (https://openai.com/index/gpt-2-6-month-follow-up/)）开始，通过让人类标注员 (opens in a new window) (https://scale.ai/) 判断四个样本中哪个最好，来对模型进行微调。对于风格续写任务，微调是样本高效的：5000 个人类样本就足以获得人类评价的强表现。对于摘要任务，使用 6 万个比较训练的模型学会了从输入中复制整个句子，同时跳过无关的前言；这种复制是确保摘要准确的简单方法，但可能利用了标注员依赖简单启发式方法的事实。对于风格续写任务，下方展示了比较原始 774M GPT-2 模型和我们微调后版本的样本。B (https://openai.com/index/fine-tuning-gpt-2/#citation-bottom-B) 根据用于训练它们的同一批人类标注员的评价，我们微调后的模型比基础 GPT-2 模型（零样本）在情感和描述性任务上分别有 88% 和 86% 的时间更受偏好。我们还对人类微调应用于两个摘要任务：CNN/Daily Mail 数据集文章摘要，以及 TL;DR 数据集的 Reddit 片段摘要。这些任务更困难：我们的主要模型使用了 6 万个四路比较。我们还需要在线数据收集，即在训练过程中随着策略变化向人类展示样本；离线的数据收集策略（仅向人类展示基础 GPT-2 语言模型的样本）表现不佳。我们的模型根据人类标注员的评价取得了非常好的性能，但可能利用了标注员依赖简单启发式方法的事实：他们更偏好复制前三个句子的前3句基准，而不是我们的模型。然而，当将监督微调与人类微调结合起来时，我们的模型在 ROUGE 分数上超越了前3句基准。下面展示了零样本和监督基线的样本，以及各自的 RL 微调版本。读者可能已经注意到这些样本的一些特点。首先，我们的 RL 微调模型主要是一个智能复制引擎：它通常通过从文章或 Reddit 片段中复制整个句子来生成摘要。相比之下，零样本和监督微调的样本更具新意： **句子新意**：摘要中未出现在源文本中的句子百分比。 RL 微调模型在复制来源上确实有所变化：虽然在 TL;DR 和 CNN/Daily Mail 上它们复制输入开头部分的比例分别为 28.3% 和 77.6%，但如果输入以无信息的前言开头（对于 TL;DR 定义为 "hi", "hello", "hey", "ok", "okay", "so"；对于 CNN/Daily Mail 定义为前三个词中带有冒号，如 "Winner: Simon Wood took home the TV crown [...]"），这些比例就下降到了 0.2% 和 1.4%。下面的可视化图显示了摘要模型复制来源的变化，以随机选择的上下文中上下文和摘要之间的最长公共双词组子序列来说明。其次，虽然 GPT-2 零样本和监督微调版本的摘要按照 n-gram 或句子衡量更具新意，但它们在内容上也更具新意。也就是说，它们不真实： **摘要准确性**：生成摘要的准确性频率，由作者根据每个数据集的 30 篇文章评判。对这些结果至少有有两种解释方式。第一种是复制是保证准确性的最简单方法。标注员被告知要惩罚不准确，但不惩罚复制。零样本模型有时会复制，而当它复制时是准确的，因此复制得到了强化。结果就是一个主要进行复制的模型，但至少不会撒谎。然而，这并不能完全解释人类评估的结果：我们的模型和简单的复制前三个句子的前3句基线，在两个数据集中都显著比人类参考摘要更受标注员偏爱。作者不同意这种评价：我们发现参考摘要是准确的，并且更好地捕捉了整体信息。这揭示了我们希望模型学习的质量概念与人类标注员实际评估的质量概念之间的不匹配。标注员希望尽可能快地工作，而他们可以通过遵循“如果摘要复制，就选择它”的启发式方法来快速工作。在线数据收集对于在摘要任务上取得最佳结果是必要的，但也导致了多个困难： 1. **软件复杂性**。将数据收集、奖励模型训练和 RL 微调交错进行，导致系统比每个组件独立时要复杂得多。 2. **机器学习复杂性**。任何组件的 ML 错误都会破坏整个系统，并且单独调试一个组件很麻烦。 3. **质量控制问题**。在线标签收集要求从生成样本到从 Scale (opens in a new window) (https://scale.ai/) 接收数据之间具有低延迟（通常约 30 分钟）。低延迟下的质量控制很难，数据质量的退化通常直到训练运行完成后才被发现。我们认为离线数据收集和在线数据收集之间的正确中间地带是批量数据收集：我们会在收集大批量数据（延迟较高）和在收集到的数据上进行训练之间交替进行。人类数据的成本意味着数量总是很少，因此每次从头开始（或者说，从 GPT-2 起点开始）重新训练都很容易。单个人类可能对某个样本是否分别准确、语法正确、不冗余、或者抓住要点有明确的概念，但比较两个摘要通常需要主观权衡不同类型的缺陷。如果可能，设计更少歧义的标签任务来获取相同信息似乎更好。例如，与其要求人们比较摘要，我们可以要求他们口头描述摘要存在的问题，或者提出修正建议。即使两个人对最重要的问题意见不一，他们也可能同意对方确实找到了某个问题；更多的共识有助于数据质量控制和整个实验过程。我们的一次代码重构引入了一个错误，该错误翻转了奖励的符号。翻转奖励通常会产生不连贯的文本，但同一个错误也翻转了 KL 惩罚的符号。结果是一个优化消极情感同时保持自然语言的模型。由于我们的指示告诉人类给包含露骨色情文本的续写打很低的分数，模型很快学会了只输出这种形式的内容。这个错误之所以引人注目，是因为结果不是乱码，而是最大化的糟糕输出。作者在训练过程中睡着了，因此问题直到训练完成才被发现。像丰田的 Andon 绳 (opens in a new window) (https://en.wikipedia.org/wiki/Andon_(manufacturing)) 这样的机制本可以防止这种情况，允许任何标注员停止有问题的训练过程。我们已经在两种自然语言任务——风格续写和摘要——上展示了从人类偏好进行奖励学习。我们的结果是混合的：在续写任务上我们用很少的样本取得了好的结果，但我们的摘要模型只是“智能复制者”：它们从输入文本中复制，但跳过无关的前言。智能复制的优点是真实：零样本和监督模型生成了自然、看似合理的摘要，但常常是谎言。我们认为我们实验中的限制因素是在线数据收集设置加剧了数据质量问题，并计划在未来使用批量数据收集。我们相信奖励学习在语言中的应用从能力和安全角度都很重要。在能力方面，强化学习让我们能够纠正监督学习无法捕捉的错误，但带有程序化奖励函数的 RL “可能对模型质量有害 (opens in a new window) (https://arxiv.org/abs/1705.04304)”。在安全方面，语言的奖励学习允许在训练中代表像“不要撒谎”这样的重要标准，并且是朝着可扩展的安全方法（如辩论 (https://openai.com/index/debate/) 和放大 (https://openai.com/index/amplifying-ai-training/)）迈出的一步。

基于人类偏好微调GPT-2

相似文章

GPT-3.5 Turbo 微调和 API 更新

为您的应用自定义 GPT-3

GPT-4o 现已支持微调

GPT-2: 1.5B 版本发布

通过人类反馈学习总结

提交意见反馈