语言模型是小样本学习器

OpenAI Blog 2020/05/28 07:00 论文

gpt-3 few-shot-learning language-models pre-training nlp large-scale-models

摘要

OpenAI 推出了 GPT-3，一个拥有 1750 亿参数的自回归语言模型，它在无需梯度更新或微调的情况下，在多种 NLP 任务上展现出强大的小样本学习能力，代表了语言模型应用范式的转变——仅通过文本交互就能适应新任务。

暂无内容

查看缓存全文

缓存时间: 2026/04/20 14:46

# 语言模型是少样本学习者来源：https://openai.com/index/language-models-are-few-shot-learners/ 最近的工作通过在大型文本语料库上进行预训练，然后在特定任务上进行微调，在许多自然语言处理任务和基准上取得了显著进展。虽然这种方法在架构上通常是任务无关的，但仍然需要包含数千到数万个示例的任务特定微调数据集。相比之下，人类通常只需要少数几个示例或简单的指导就能执行新的语言任务——这是当前自然语言处理系统仍然很难做到的事情。在这里，我们展示了扩大语言模型的规模可以大幅提高任务无关的少样本性能，有时甚至能与之前最先进的微调方法相竞争。具体来说，我们训练了 GPT-3，一个拥有 1750 亿参数的自回归语言模型，参数量是之前任何非稀疏语言模型的 10 倍，并在少样本设置中测试了其性能。对于所有任务，GPT-3 无需任何梯度更新或微调就能使用，任务和少样本演示完全通过文本交互与模型指定。GPT-3 在许多自然语言处理数据集上取得了强大的性能，包括翻译、问答和完形填空任务，以及需要实时推理或域适应的多个任务，例如拆解单词、在句子中使用新词或执行三位数算术运算。同时，我们也发现了 GPT-3 的少样本学习仍然存在困难的数据集，以及 GPT-3 面临与大规模网络语料库训练相关的方法论问题的数据集。最后，我们发现 GPT-3 可以生成新闻文章样本，人类评估者很难将其与人类撰写的文章区分开来。我们讨论了这一发现以及 GPT-3 总体上对社会的更广泛影响。

语言模型是小样本学习器

相似文章

更好的语言模型及其影响

首次体验 GPT-5

让语言模型遵循指令

GPT-4

Meta-Tool：小语言模型的高效少样本工具适配

提交意见反馈