通过人类反馈学习总结

OpenAI Blog 论文

摘要

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。

我们应用了来自人类反馈的强化学习来训练更擅长总结的语言模型。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:46

# 通过人类反馈学习总结 来源:https://openai.com/index/learning-to-summarize-with-human-feedback/ 大规模语言模型在自然语言处理任务上的能力不断提高。这些模型通常是通过在人类书写文本数据集上进行下一个词预测的目标进行训练的。但这个目标并不能准确捕捉我们真正想要的;通常,我们不是想让模型模仿人类,而是希望它们给出高质量的答案。当模型被训练来模仿低质量的人类书写文本时,这种不匹配是显而易见的,但也可能以更微妙的方式发生。例如,训练来预测人类会说什么的模型可能在不确定时编造事实,或生成反映有害社会偏见的句子,这两种失败模式都有充分的记录。3 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-3),4 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-4),5 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-5),6 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-6) 作为安全工作的一部分,我们希望开发能够将模型的目标与我们真正关心的最终行为相一致的技术。随着模型变得更加强大,我们相信将其与我们的目标相一致对于确保它们对人类有益将非常重要。短期内,我们想测试人类反馈技术是否能帮助我们的模型在有用的任务上提高性能。 我们专注于英文文本摘要,因为这是一个具有挑战性的问题,其中"好摘要"的概念很难在没有人类输入的情况下捕捉。我们主要将我们的方法应用于社交网络 Reddit 上提交的文章的现有数据集1 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-1)B (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-B),其中包含人类书写的"TL;DR"(长文本简述),这些是原始发布者编写的简短摘要。 我们首先通过监督学习训练一个奖励模型来预测人类会偏好哪些摘要。A (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-A)然后我们使用强化学习(RL)微调语言模型以生成根据该奖励模型评分高的摘要。我们发现这显著改善了摘要的质量(由人类评估),即使在与微调所用数据集差异很大的数据集上也是如此。 我们的方法直接源自我们之前关于从人类反馈中学习的工作。7 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-7)还有其他关于使用人类反馈训练摘要模型的工作。8 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-8)我们通过扩展到更大的模型、收集更多反馈数据、密切监测研究人员-标注人员的一致性以及向标注人员提供频繁反馈来推进这项技术。人类反馈也被用于在其他几个领域训练模型,例如对话,9 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-9),10 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-10),11 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-11)语义解析,12 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-12)翻译,13 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-13),14 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-14)故事15 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-15)和评论16 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-16)生成、证据提取17 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-17)以及更多传统的强化学习任务。18 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-18),19 (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-19) 如果我们对模型的期望行为有明确定义,我们的从人类反馈中训练的方法允许我们为这种行为进行优化。但是,这不是确定期望的模型行为*应该是什么*的方法。决定什么是好摘要相当直接,但对于目标更复杂的任务(不同的人可能会对正确的模型行为有不同看法),这将需要显著的谨慎。在这些情况下,将研究人员标签用作"金标准"可能不合适;相反,应将受到该技术影响的群体中的个人包括在确定"好"行为的过程中,并聘请他们作为标注人员来强化模型中的这种行为。 我们在 Reddit TL;DR 数据集上进行训练1 (https://openai.com/index/learning-to-summarize-with-human-feedback/#rf1),因为摘要任务比 CNN/DM 上的任务要复杂得多。但是,由于该数据集由用户提交的帖子组成,审核最少,它们有时包含冒犯性的或反映有害社会偏见的内容。这意味着我们的模型可以生成有偏见或冒犯性的摘要,因为他们已经被训练来总结这类内容。 我们成功的一部分涉及扩展奖励模型和策略规模。这需要大量的计算资源,这对所有研究人员都不可用:值得注意的是,用强化学习微调我们的 6.7B 模型需要大约 320 个 GPU 天。但是,由于用人类反馈训练的较小模型可以超过远大得多的模型的性能,我们的程序比简单地扩展以在特定任务上训练高质量模型更具成本效益。 虽然我们在 TL;DR 上的表现优于人类编写的参考摘要,但我们的模型可能尚未达到人类水平的性能,因为 TL;DR 和 CNN/DM 的参考摘要基线不是最高质量的。在 7 点制评估尺度上对我们模型的 TL;DR 摘要沿着几个质量轴(*准确性*、*覆盖范围*、*连贯性*和*整体*)进行评估时,标注人员发现我们的模型仍然可能生成不准确的摘要,并在 45% 的时间内给出完美的*整体*评分。L (https://openai.com/index/learning-to-summarize-with-human-feedback/#citation-bottom-L)出于成本原因,我们也没有直接比较使用类似预算来收集高质量演示,以及使用标准监督微调对其进行训练。

相似文章

利用人工反馈进行图书摘要总结

OpenAI Blog

OpenAI 展示了一种可扩展的对齐技术,使用人工反馈进行整本书的分层摘要总结,展示了如何训练模型在复杂、难以评估的任务上按照人类意图行动。

AI编写的评论帮助人类发现缺陷

OpenAI Blog

# AI编写的评论帮助人类发现缺陷 来源:[https://openai.com/index/critiques/](https://openai.com/index/critiques/) 我们希望确保未来执行极困难任务的AI系统始终与人类意图保持一致。[Many⁠](https://openai.com/index/learning-to-summarize-with-human-feedback/)[previous⁠\(opens in a new window\)](https://arxiv.org/abs/2204.05862)[works⁠\(opens in a new window\)](https://www.deepmind.com/publications/gophercite-teaching-language-models-to-suppo

从人类偏好中学习

OpenAI Blog

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

基于人类偏好微调GPT-2

OpenAI Blog

OpenAI展示了使用人类偏好反馈对GPT-2(774M参数)进行微调,用于文本续写和摘要任务,风格任务需要5000个标签,摘要任务需要60000个标签,模型达到了86-88%的人类偏好率,但揭示了标注者启发式利用的问题。