KletterMix：迈向高质量德语预训练数据

Hugging Face Daily Papers 2026/06/02 15:28 论文

german-language pretraining-data nlp dataset machine-translation language-models corpus

摘要

KletterMix 是一个高质量的德语预训练语料库，通过将最先进的英语预训练数据集翻译成德语构建而成，同时保留其结构和多样性。控制实验表明，在 KletterMix 上训练的模型在德语基准测试中取得了可衡量的改进。

高质量的预训练数据是现代语言模型的核心要素，但德语资源的发展远不如英语资源：它们通常规模更小、整理不够细致、文档记录不充分，并且很少通过受控训练实验进行验证。我们推出了 KletterMix，这是一个用于语言模型预训练和退火的高质量德语语料库，旨在为自然语言处理与建模社区提供一个可复用的数据集产物。KletterMix 是通过将最先进的英语预训练语料库翻译成德语构建而成，同时保留了文档边界、元数据、源结构以及主题多样性。这种构建方式使得德语语料库具备了现代预训练数据集的规模和多样性，同时能够与其英语源进行直接比较。我们通过一系列广泛的数据集级分析来记录该数据集，包括翻译质量、文档长度分布、主题覆盖范围、来源构成以及地理元数据。利用 COMETKiwi，我们展示了翻译后的文档在不同领域均达到了较高质量，这表明仔细的翻译能够保留原始语料库中大部分语义和风格丰富性。除了数据集构建，我们还评估了 KletterMix 作为训练数据的表现。通过针对已有德语语料库进行受控的预训练和退火消融实验，我们表明在 KletterMix 上训练的模型在德语下游评估中取得了可衡量的改进。这些结果表明，精心整理的翻译数据能够显著加强德语预训练数据生态系统。

查看原文

KletterMix：迈向高质量德语预训练数据

相似文章

大语言模型预训练的数据混合：综述与展望

混合而非挑选：为何合成语料组合对时间序列基础模型预训练至关重要

中心与边缘：基于网络图中心性的预训练数据选择

FastMix：通过梯度下降的快速数据混合优化

RegMix-D: 通过代理训练轨迹实现动态数据混合

提交意见反馈