高效训练语言模型执行中间填充任务
摘要
OpenAI 提出了一种简单的数据增强技术,使自回归语言模型能够执行填充中间(FIM)文本生成任务,同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:55
# 语言模型填充中间部分的高效训练
来源: https://openai.com/index/efficient-training-of-language-models-to-fill-in-the-middle/
## 摘要
我们证明了自回归语言模型可以通过对数据集进行简单变换来学习文本填充,该变换只是将文档中间的一段文本移到末尾。虽然这种数据增强近年来获得了广泛关注,但我们提供了大量证据表明,用大比例的变换数据训练模型不会损害原始的从左到右的生成能力,这通过在广泛的模型规模范围内的困惑度和采样评估来衡量。鉴于填充中间部分(FIM)训练的实用性、简洁性和高效性,我们建议未来的自回归语言模型默认采用 FIM 进行训练。为此,我们对关键超参数进行了一系列消融研究,包括数据变换频率、变换结构和填充span选择方法。我们利用这些消融研究来推荐强大的默认设置和训练 FIM 模型的最佳实践。我们已在 API 中发布了按最佳实践训练的最佳填充模型,并发布了填充基准来帮助未来的研究。
相似文章
填充中间预训练的记忆动态
本文研究填充中间(FIM)预训练对逐字记忆的影响,发现FIM更常恢复短片段,而标准的从左到右训练恢复长的精确延续,且FIM下的记忆随重复次数线性增长。
通过填充提取扩散语言模型中的训练数据
本文介绍了infilling extraction(填充提取)方法,这是一种通过使用任意二进制掩码从扩散语言模型中提取训练数据的新方法,表明此类模型比之前认为的更容易受到记忆化攻击。
在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
揭秘数据受限语言模型预训练中的训练时数据增强
本文研究了在数据受限、算力充足的场景下,为缓解自回归语言模型预训练中的过拟合而采用训练时数据增强技术,发现结合词元级噪声、序列排列和目标偏移预测可以改善验证损失。
利用自生成数据的中期训练提升语言模型中的强化学习
本文提出在强化学习之前,对语言模型进行基于自生成多样化推理轨迹的中期训练,通过让模型接触多种有效的解题方法,展示了在数学基准测试上强化学习性能的提升。