更好的语言模型及其影响

OpenAI Blog 模型

摘要

OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。

我们训练了一个大规模无监督语言模型,能够生成连贯的文本段落,在多个语言建模基准上达到了最先进的性能,并能够执行基础的阅读理解、机器翻译、问答和摘要生成任务——所有这些都无需针对特定任务的训练。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:43

# 更好的语言模型及其影响 来源:https://openai.com/index/better-language-models/ 我们训练了一个大规模无监督语言模型,能够生成连贯的文本段落,在许多语言建模基准上达到了最先进的性能,并能执行初步的阅读理解、机器翻译、问答和摘要等任务——所有这些都无需任务特定的训练。 我们的模型称为 GPT-2(GPT 的后继版本),通过简单地预测 40GB 互联网文本中的下一个单词而训练。由于我们对该技术恶意应用的担忧,我们没有发布训练好的模型。作为负责任披露的一项实验,我们转而发布了一个小得多的模型供研究人员试验,以及一份技术论文。 GPT-2 是一个大型 Transformer 语言模型,拥有 15 亿个参数,在包含 800 万个网页的数据集上训练。GPT-2 的训练目标很简单:在给定文本中所有前置单词的情况下,预测下一个单词。数据集的多样性使这个简单目标自然地包含了许多跨不同领域任务的演示。GPT-2 是 GPT 的直接升级版本,参数数量增加了 10 倍以上,训练数据量也增加了 10 倍以上。 GPT-2 展现了广泛的能力,包括生成前所未有质量的条件合成文本样本的能力,其中我们用一个输入启动模型,让它生成较长的延续文本。此外,GPT-2 在针对特定领域(如维基百科、新闻或书籍)训练的其他语言模型上表现更优,而无需使用这些特定领域的训练数据集。在问答、阅读理解、摘要和翻译等语言任务上,GPT-2 开始从原始文本中学习这些任务,不使用任何任务特定的训练数据。虽然这些下游任务的得分远未达到最先进水平,但它们表明这些任务可以从无监督技术中受益,只要有足够的(未标记)数据和计算资源。 GPT-2 通过用任意输入启动模型来生成合成文本样本。该模型具有变色龙般的特性——它适应了条件文本的风格和内容。这允许用户生成关于他们选择的话题的真实且连贯的延续文本,如以下精选样本所示。 如上面的样本所示,我们的模型能够从各种提示中生成感觉接近人类质量的样本,并展现出一页或更长文本的连贯性。不过,我们也观察到了各种失败模式,例如重复文本、世界建模失败(例如,模型有时会写关于"水下发生的火灾"的内容),以及不自然的话题转换。探索语言模型的这些类型的弱点是自然语言处理社区的一个活跃研究领域。 总的来说,我们发现获得一个好的样本需要多次尝试,尝试次数取决于模型对上下文的熟悉程度。当提示涉及在数据中有大量体现的话题时(英国脱欧、麦莉·赛勒斯、《指环王》等),模型似乎大约 50% 的时间能够生成合理的样本。反之亦然:对于高度技术性或晦涩的内容类型,模型性能可能较差。微调提供了对生成样本更详细控制的潜力——例如,我们可以在亚马逊评论数据集上微调 GPT-2,并用它来编写以星级评分和类别为条件的评论。 这些样本具有重大的政策影响:大型语言模型越来越容易被引导生成可扩展的、定制化的、连贯的文本,这反过来可能被用于许多有益以及恶意的目的。我们将在下面更详细地讨论这些影响,并概述考虑到这些因素后我们采取的发布实验。 GPT-2 在各种特定领域的语言建模任务上取得了最先进的得分。我们的模型没有在任何这些任务特定的数据上训练,只在最后测试中进行评估;这称为"零样本"设置。GPT-2 在特定领域的数据集(如维基百科、新闻、书籍)上训练的模型相比,当在同样的数据集上评估时表现更优。以下表格显示了我们所有最先进的零样本结果。 *(+)表示该领域得分越高越好。(-)表示得分越低越好。* GPT-2 在 Winograd 架构、LAMBADA 和其他语言建模任务上达到了最先进水平。 在问答、阅读理解、摘要和翻译等其他语言任务上,我们能够获得令人惊讶的结果,无需对模型进行任何微调,只需以正确的方式启动训练好的模型(见下文示例),尽管我们仍然达不到专用系统的最先进水平。 我们假设,由于这些任务是通用语言建模的一个子集,我们可以预期性能会随着更多计算和数据而进一步提高。其他人已经发布了类似的假设。我们也预期微调将帮助提高下游任务的性能,尽管我们还没有进行深入的实验。 大型通用语言模型可能会产生重大的社会影响,并且也有许多近期应用。我们可以预期 GPT-2 这样的系统可能被用来创建: - AI 写作助手 - 更强大的对话代理 - 语言间的无监督翻译 - 更好的语音识别系统 我们也可以想象这些模型在恶意用途中的应用,包括以下(或其他我们目前无法预料的应用): - 生成误导性新闻文章 - 在网上冒充他人 - 自动生成辱骂性或虚假内容以发布在社交媒体上 - 自动生成垃圾邮件/钓鱼内容 这些发现,结合之前关于合成图像、音频和视频的结果,意味着技术正在降低生成假内容和进行虚假信息宣传的成本。公众将需要对在线找到的文本变得更加怀疑,就像"深度伪造"现象要求人们对图像保持更多怀疑一样。 如今,一些恶意行为者——其中一些具有政治性质——已经开始针对共享的在线公共空间,使用"机器人工具、虚假账户和专门团队来用仇恨评论或诽谤骚扰个人,使他们害怕发言,或难以被听到或相信"。我们应该考虑合成图像、视频、音频和文本生成研究如何可能进一步结合,为这些行为者释放新的尚未预见的能力,并应寻求创建更好的技术和非技术对策。此外,这些系统固有的基础技术创新是人工智能基础研究的核心,因此无法在不减缓整体人工智能进展的情况下控制这些领域的研究。 由于担心大型语言模型被用来大规模生成欺骗性、有偏见或滥用性语言,我们仅发布了一个小得多的 GPT-2 版本以及采样代码。我们没有发布数据集、训练代码或 GPT-2 模型权重。将近一年前,我们在 OpenAI 宪章中写道:"我们预期安全和安全问题将减少我们未来的传统出版,同时增加分享安全、政策和标准研究的重要性",我们将这项当前工作视为可能代表这些问题的早期开端,我们预期这些问题可能会随着时间推移而增长。这一决定及其讨论是一项实验:虽然我们不确定它在今天是否是正确的决定,但我们相信人工智能社区最终需要以深思熟虑的方式处理某些研究领域的发布规范问题。生物技术和网络安全等其他学科长期以来就在具有明确滥用潜力的负责任出版问题上进行了积极辩论,我们希望我们的实验将作为案例研究,用于人工智能社区内更细致的模型和代码发布决策讨论。 我们意识到一些研究人员具有复现和开源我们结果的技术能力。我们相信我们的发布策略限制了可能选择这样做的初始组织集合,并为人工智能社区提供了更多时间来讨论此类系统的影响。 我们也认为政府应该考虑扩展或启动计划,更系统地监测人工智能技术的社会影响和扩散,并测量此类系统能力的进展。如果实施,这些努力可以为人工智能实验室和政府关于发布决策和更广泛的人工智能政策的决定提供更好的证据基础。 我们将在六个月后进一步公开讨论这一策略。如果您想讨论大型语言模型及其影响,请发送电子邮件至:[email protected]。如果您对从事尖端语言模型工作(并思考其政策影响)感兴趣,我们在招聘。 *GPT-2 临时更新,2019 年 5 月* 我们正在实施两种机制来负责任地发布 GPT-2 和希望的未来版本:分阶段发布和基于伙伴关系的共享。作为分阶段发布的下一步,我们现在发布了一个更大的 345M 参数版本的 GPT-2,并与人工智能和安全社区的合作伙伴共享 762M 和 1.5B 版本,他们致力于改进社会对大型语言模型的准备。 分阶段发布涉及在一段时间内逐步发布一个模型系列。我们 GPT-2 分阶段发布的目的是给人们时间来评估这些模型的属性、讨论其社会影响,并评估每个阶段发布后的影响。 作为我们分阶段发布策略的下一步,我们发布了 345M 参数版本的 GPT-2。相比 117M 版本,该模型性能有所提高,但在生成连贯文本的易用性方面不及 1.5B 版本。我们很高兴看到许多对 GPT-2-117M 的积极使用,并希望 345M 将带来更多好处。 虽然 345M 的滥用风险高于 117M,但我们相信它远低于 1.5B,并且我们相信许多行为者已经具有训练与 GPT-2-345M 类似能力系统的能力;这种不断演变的复现格局已经影响了我们关于适当发布内容的决策。 在做出 345M 发布决策时,我们考虑的一些因素包括:不同模型大小对各种用户生成连贯文本的易用性、人类在文本生成过程中的作用、其他人未来复现和发布的可能性和时间、野外使用证据和专家知情推断关于可观察使用,概念验证如原始博客文章中提及的评论生成器,模型有益用途的需求强度,以及利益相关者和专家的输入。我们对其中一些变量仍然不确定,并继续欢迎有关如何做出适当语言模型发布决策的意见。 我们希望关于偏见、检测和滥用的持续研究将给我们信心及时发布更大的模型,在六个月时点我们将分享关于语言模型社会影响的更全面分析和我们的发布决策启发式方法。 我们发布了来自所有 4 个模型大小的 GPT-2 输出数据集,有和没有 top-k 截断,以及用于训练 GPT-2 的 WebText 语料库的一个子集。输出数据集每个模型/超参数对包含大约 250,000 个样本,我们预期这足以帮助更广泛的研究人员对上述三个主题进行定量和定性分析。与这些数据集一起,我们包括了一些与检测相关属性的模型的基线分析,我们希望其他人能够快速建立。 我们有兴趣与从事语言模型输出检测、偏见和发布规范研究的研究人员合作,以及与可能受大型语言模型影响的组织合作:请通过我们的谷歌表单联系。此外,OpenAI 的语言、安全和政策团队将参加 ICLR,包括在可重现性研讨会和 OpenAI 展台。特别是,我们将在社会公益人工智能研讨会上讨论这一发布策略。

相似文章

语言模型是小样本学习器

OpenAI Blog

OpenAI 推出了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,它在无需梯度更新或微调的情况下,在多种 NLP 任务上展现出强大的小样本学习能力,代表了语言模型应用范式的转变——仅通过文本交互就能适应新任务。

首次体验 GPT-5

OpenAI Blog

OpenAI 首次展示 GPT-5,代表了大语言模型的重大进步,具有潜在的范式转变能力。

理解大语言模型的能力、限制和社会影响

OpenAI Blog

来自 OpenAI 和斯坦福大学研究人员的全面讨论总结,涵盖 GPT-3 的技术能力、限制以及跨越计算机科学、语言学、哲学和政策等多个学科的更广泛社会影响。

GPT-2: 1.5B 版本发布

OpenAI Blog

OpenAI 发布了 GPT-2 1.5B 参数模型,附带了人类对可信度感知的分析、通过在极端意识形态微调进行滥用的潜在风险,以及检测合成文本的挑战。检测模型达到约 95% 的准确率,但在实际部署中需要配套方法。

GPT-4

OpenAI Blog

OpenAI 发布 GPT-4,一个大型多模态模型,接受图像和文本输入,在专业和学术基准测试中表现出人类水平的性能,在各种评估指标上的表现明显优于 GPT-3.5。