KletterMix:迈向高质量德语预训练数据
摘要
KletterMix 是一个高质量的德语预训练语料库,通过将最先进的英语预训练数据集翻译成德语构建而成,同时保留其结构和多样性。控制实验表明,在 KletterMix 上训练的模型在德语基准测试中取得了可衡量的改进。
高质量的预训练数据是现代语言模型的核心要素,但德语资源的发展远不如英语资源:它们通常规模更小、整理不够细致、文档记录不充分,并且很少通过受控训练实验进行验证。我们推出了 KletterMix,这是一个用于语言模型预训练和退火的高质量德语语料库,旨在为自然语言处理与建模社区提供一个可复用的数据集产物。KletterMix 是通过将最先进的英语预训练语料库翻译成德语构建而成,同时保留了文档边界、元数据、源结构以及主题多样性。这种构建方式使得德语语料库具备了现代预训练数据集的规模和多样性,同时能够与其英语源进行直接比较。我们通过一系列广泛的数据集级分析来记录该数据集,包括翻译质量、文档长度分布、主题覆盖范围、来源构成以及地理元数据。利用 COMETKiwi,我们展示了翻译后的文档在不同领域均达到了较高质量,这表明仔细的翻译能够保留原始语料库中大部分语义和风格丰富性。除了数据集构建,我们还评估了 KletterMix 作为训练数据的表现。通过针对已有德语语料库进行受控的预训练和退火消融实验,我们表明在 KletterMix 上训练的模型在德语下游评估中取得了可衡量的改进。这些结果表明,精心整理的翻译数据能够显著加强德语预训练数据生态系统。
相似文章
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
混合而非挑选:为何合成语料组合对时间序列基础模型预训练至关重要
本文系统评估了11种用于基础模型预训练的合成时间序列生成器,发现生成器的排名在不同架构下不稳定,但所有生成器的等权重混合结果与最佳单个生成器相当或更优。将这种混合与真实数据融合可得到最强的预训练语料,从而将合成预训练重新定义为语料组合问题而非生成器选择问题。
中心与边缘:基于网络图中心性的预训练数据选择
本文介绍了WebGraphMix,一个轻量级框架,利用来自Common Crawl的网络图中心性分数来选择预训练数据,实验表明混合中心文档与边缘文档能够提升语言模型性能。
FastMix:通过梯度下降的快速数据混合优化
FastMix 是一个新颖的框架,通过使用单个代理模型和双层优化自动发现训练大型模型的数据混合方式,实现了最先进的性能,并大幅提升效率。
RegMix-D: 通过代理训练轨迹实现动态数据混合
RegMix-D 将 RegMix 扩展到动态数据混合,通过使用代理运行的损失轨迹来预测多个训练阶段的最优混合比例,相比静态方法取得了改进。