通过无监督学习改进语言理解
摘要
OpenAI 提出了一种两阶段方法来改进语言理解:首先在大规模无监督数据集上使用语言建模对 transformer 模型进行预训练,然后在较小的有监督数据集上针对特定任务进行微调。该方法在包括常识推理、语义相似度和阅读理解在内的多种任务上取得了最先进的成果,同时需要的超参数调优工作最少。
我们使用可扩展的、与任务无关的系统在一套多样化的语言任务上获得了最先进的成果,我们也在发布这个系统。我们的方法是两个现有想法的结合:transformer 和无监督预训练。这些结果提供了一个令人信服的例证,表明将有监督学习方法与无监督预训练配对效果非常好;这是许多人过去都探索过的想法,我们希望我们的成果能够激励进一步的研究,在更大规模和更多样化的数据集上应用这一想法。
查看缓存全文
缓存时间:
2026/04/20 14:56
# 通过无监督学习改进语言理解
来源:https://openai.com/index/language-unsupervised/
我们的系统分两个阶段工作:首先,我们在大量数据上以无监督的方式训练一个 Transformer 模型——使用语言建模作为训练信号——然后在更小的有监督数据集上微调该模型,以帮助它解决特定任务。我们在之前的[情感神经元](https://openai.com/index/unsupervised-sentiment-neuron/)工作基础上开发了这种方法,在该工作中我们发现无监督学习技术在足够的数据上训练时能够产生出人意料的判别特征。在这里,我们想进一步探索这个想法:我们能否开发一个模型,以无监督的方式在大量数据上训练它,然后微调该模型以在许多不同的任务上实现良好性能?我们的结果表明这种方法出人意料地有效;同一个核心模型可以以最少的适配微调用于非常不同的任务。
这项工作建立在[半监督序列学习](https://arxiv.org/abs/1511.01432)引入的方法基础上,该方法展示了如何通过使用 LSTM 的无监督预训练后跟有监督微调来改进文档分类性能。它也扩展了 [ULMFiT](https://arxiv.org/abs/1801.06146) 的研究,该研究展示了如何将单个数据集无关的 LSTM 语言模型微调为在各种文档分类数据集上获得最先进性能;我们的工作展示了如何使用基于 Transformer 的模型在这种方法中成功处理超越文档分类的更广泛的任务范围,例如常识推理、语义相似性和阅读理解。它也类似于但比 [ELMo](https://allennlp.org/elmo) 更加任务无关,后者采用预训练但使用任务定制的架构在广泛的任务套件上获得最先进的结果。
我们用很少的调整就取得了这些结果。所有数据集都使用单个前向语言模型,没有任何集成,大多数报告的结果使用完全相同的超参数设置。
我们特别兴奋的一个结果是我们的方法在三个数据集上的性能——[COPA](http://people.ict.usc.edu/~gordon/copa.html)、[RACE](https://arxiv.org/abs/1704.04683) 和 [ROCStories](http://cs.rochester.edu/nlp/rocstories/)——这些数据集旨在测试常识推理和阅读理解。我们的模型在这些数据集上以很大的优势获得了新的最先进结果。这些数据集被认为需要多句推理和重要的世界知识才能解决,这表明我们的模型主要通过无监督学习改进了这些技能。这表明通过无监督技术开发复杂的语言理解能力是有希望的。
相似文章
OpenAI Blog
OpenAI 推出 GPT-2,这是一个拥有 15 亿参数的基于 Transformer 的语言模型,在 40GB 的互联网文本上进行训练,在语言建模基准上达到了最先进的性能,并在阅读理解、翻译、问答和摘要生成等任务上展示了零样本学习能力。出于安全考虑,仅公开发布了较小的模型和技术论文,而非完整的训练模型。
OpenAI Blog
OpenAI 研究表明,通过在针对特定行为价值观的小型精选数据集(<100 个示例)上进行微调,可以显著改进语言模型的行为,且效果随着模型规模增大而提高。该方法为用户提供了工具,以便根据特定应用调整模型以符合《宪章》的价值观。
OpenAI Blog
OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。
Hugging Face Daily Papers
本文提出了一种强化学习方法,使大型语言模型能够通过利用上下文中的语言知识来翻译未见过的语言,其表现优于上下文学习和监督微调。
MIT News — Artificial Intelligence
本文介绍了麻省理工学院大四学生奥利维亚·哈尼卡特(Olivia Honeycutt),重点展示了她在语言学、计算和认知科学交叉领域的跨学科研究,尤其关注人类语言处理与大语言模型的比较。