语言模型是小样本学习器

OpenAI Blog 论文

摘要

OpenAI 推出了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,它在无需梯度更新或微调的情况下,在多种 NLP 任务上展现出强大的小样本学习能力,代表了语言模型应用范式的转变——仅通过文本交互就能适应新任务。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 语言模型是少样本学习者 来源:https://openai.com/index/language-models-are-few-shot-learners/ 最近的工作通过在大型文本语料库上进行预训练,然后在特定任务上进行微调,在许多自然语言处理任务和基准上取得了显著进展。虽然这种方法在架构上通常是任务无关的,但仍然需要包含数千到数万个示例的任务特定微调数据集。相比之下,人类通常只需要少数几个示例或简单的指导就能执行新的语言任务——这是当前自然语言处理系统仍然很难做到的事情。在这里,我们展示了扩大语言模型的规模可以大幅提高任务无关的少样本性能,有时甚至能与之前最先进的微调方法相竞争。具体来说,我们训练了 GPT-3,一个拥有 1750 亿参数的自回归语言模型,参数量是之前任何非稀疏语言模型的 10 倍,并在少样本设置中测试了其性能。对于所有任务,GPT-3 无需任何梯度更新或微调就能使用,任务和少样本演示完全通过文本交互与模型指定。GPT-3 在许多自然语言处理数据集上取得了强大的性能,包括翻译、问答和完形填空任务,以及需要实时推理或域适应的多个任务,例如拆解单词、在句子中使用新词或执行三位数算术运算。同时,我们也发现了 GPT-3 的少样本学习仍然存在困难的数据集,以及 GPT-3 面临与大规模网络语料库训练相关的方法论问题的数据集。最后,我们发现 GPT-3 可以生成新闻文章样本,人类评估者很难将其与人类撰写的文章区分开来。我们讨论了这一发现以及 GPT-3 总体上对社会的更广泛影响。

相似文章

更好的语言模型及其影响

OpenAI Blog

OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。

首次体验 GPT-5

OpenAI Blog

OpenAI 首次展示 GPT-5,代表了大语言模型的重大进步,具有潜在的范式转变能力。

让语言模型遵循指令

OpenAI Blog

OpenAI 推出了 InstructGPT,这是一个 GPT-3 的变体,通过人类反馈强化学习 (RLHF) 进行微调,以更好地遵循指令并减少有害输出。一个 1.3B 的 InstructGPT 模型在人类评估者的偏好测试中超过了 175B 的 GPT-3 模型,现已成为 OpenAI API 的默认模型。

GPT-4

OpenAI Blog

OpenAI 发布 GPT-4,一个大型多模态模型,接受图像和文本输入,在专业和学术基准测试中表现出人类水平的性能,在各种评估指标上的表现明显优于 GPT-3.5。