高效训练语言模型执行中间填充任务

OpenAI Blog 2022/07/28 07:00 论文

摘要

OpenAI 提出了一种简单的数据增强技术，使自回归语言模型能够执行填充中间(FIM)文本生成任务，同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:55

# 语言模型填充中间部分的高效训练来源: https://openai.com/index/efficient-training-of-language-models-to-fill-in-the-middle/ ## 摘要我们证明了自回归语言模型可以通过对数据集进行简单变换来学习文本填充，该变换只是将文档中间的一段文本移到末尾。虽然这种数据增强近年来获得了广泛关注，但我们提供了大量证据表明，用大比例的变换数据训练模型不会损害原始的从左到右的生成能力，这通过在广泛的模型规模范围内的困惑度和采样评估来衡量。鉴于填充中间部分（FIM）训练的实用性、简洁性和高效性，我们建议未来的自回归语言模型默认采用 FIM 进行训练。为此，我们对关键超参数进行了一系列消融研究，包括数据变换频率、变换结构和填充span选择方法。我们利用这些消融研究来推荐强大的默认设置和训练 FIM 模型的最佳实践。我们已在 API 中发布了按最佳实践训练的最佳填充模型，并发布了填充基准来帮助未来的研究。

高效训练语言模型执行中间填充任务

相似文章

填充中间预训练的记忆动态

通过填充提取扩散语言模型中的训练数据

在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能

揭秘数据受限语言模型预训练中的训练时数据增强

利用自生成数据的中期训练提升语言模型中的强化学习

提交意见反馈