大语言模型预训练的数据混合：综述与展望

arXiv cs.CL 2026/04/21 04:00 论文

large-language-models pretraining data-mixing survey domain-sampling data-selection training-efficiency

摘要

# 大语言模型预训练的数据混合：综述与展望来源：[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要：大型语言模型（LLMs）依赖于在海量且异构的语料上进行预训练，在现实中的计算和数据预算限制下，训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同，数据混

arXiv:2604.16380v1 公告类型：新论文摘要：大型语言模型（LLMs）依赖于在海量且异构的语料上进行预训练，在真实的计算和数据预算约束下，训练数据的构成对训练效率和下游泛化能力具有决定性影响。与样本级数据选择不同，数据混合通过优化领域级采样权重，更有效地分配有限的预算。近年来，越来越多的研究为 LLM 预训练提出了理论指导的数据混合方法；然而，现有文献依然分散，缺乏专门的系统性综述。本文全面回顾了 LLM 预训练中的数据混合技术。我们首先将数据混合优化形式化为概率单纯形上的双层问题，阐明数据混合在预训练流程中的作用，并简要说明现有方法如何在实践中使该建模方式变得可行。随后，我们引入一个细粒度的分类体系，从静态与动态两个维度组织现有方法。静态混合进一步分为基于规则和基于学习的方法，而动态混合则归为自适应与外部引导两类。针对每个类别，我们总结了代表性方法，并从性能与成本的权衡角度分析了其优势与局限。在此基础上，我们指出了跨方法面临的共同挑战，包括在不同数据域、优化目标、模型和验证集上可迁移性有限，评估协议和基准测试缺乏标准化，以及基于学习的方法中性能提升与成本控制之间的固有矛盾。最后，我们展望了几个探索方向，包括更细粒度的领域划分、逆向数据混合，以及面向训练流程感知的设计，旨在为未来研究提供概念与方法论层面的启示。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 07:03

# 大语言模型预训练中的数据混合：综述与展望
来源：https://arxiv.org/abs/2604.16380
查看 PDF (https://arxiv.org/pdf/2604.16380)

> **摘要：**大语言模型（LLMs）依赖于对海量异构语料库的预训练。在实际的计算与数据预算约束下，训练数据的构成对训练效率及下游泛化能力具有决定性影响。与样本级数据选择不同，数据混合通过优化领域级采样权重，能够更有效地分配有限资源。近年来，涌现出大量提出严谨原则的数据混合方法以用于 LLM 预训练；然而，现有文献依然零散，缺乏专门的系统性综述。本文对 LLM 预训练中的数据混合技术进行了全面回顾。我们首先将数据混合优化形式化为概率单纯形上的双层问题，厘清了其在预训练流水线中的角色，并简要说明了现有方法如何在实践中使该公式化求解变得可行。随后，我们引入了一套细粒度分类体系，从两个维度对现有方法进行组织：静态混合与动态混合。静态混合进一步划分为基于规则和基于学习的方法，动态混合则归类为自适应与外部引导两类。针对每个类别，我们总结了代表性方案，并从性能与成本权衡的角度剖析了各自的优势与局限。基于上述分析，我们指出了跨越各类方法的共性挑战，包括在不同数据域、优化目标、模型和验证集之间有限的可迁移性，评估协议与基准测试缺乏标准化，以及基于学习方法中性能提升与成本控制之间固有的张力。最后，我们勾勒了若干探索方向，包括更细粒度的领域划分、逆向数据混合以及流水线感知设计，旨在为未来研究提供概念与方法论层面的洞见。

## 投稿历史

From: Zhuo Chen \[查看邮箱 (https://arxiv.org/show-email/0f376c56/2604.16380)\] **\[v1\]**Wed, 25 Mar 2026 13:30:40 UTC \(3,858 KB\)

相似文章

分解大语言模型的基本能力：在多任务指令微调中缓解跨任务干扰

arXiv cs.CL

本文提出Badit方法，将大语言模型参数分解为正交的高奇异值LoRA专家，以在多任务指令微调中缓解跨任务干扰。

论大语言模型的固有可解释性：设计原则和架构调查

arXiv cs.CL

一份综合调查，回顾了大语言模型（LLM）固有可解释性的最新进展，将方法分为五个设计范式：功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性，而不是依赖事后解释方法的挑战。

大语言模型可信性无训练方法的系统研究

arXiv cs.CL

一项系统性研究，评估了改进大语言模型可信性的无训练方法，将方法分为输入、内部和输出级干预，同时分析可信性、实用性和鲁棒性之间的权衡。

大型语言模型能否重塑基础算法？

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法？来源：[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后，它们还能从零重塑 Dijkstra、Euclid 等基础算法吗？** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域：先用“反学习”把目标算法从模型中抹去，再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。

应用于大语言模型的可解释性研究：对比分析

arXiv cs.CL

一项对比研究，评估了三种可解释性技术（Integrated Gradients、Attention Rollout、SHAP）在微调 DistilBERT 模型上的表现，用于情感分类任务，重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。

相似文章

分解大语言模型的基本能力：在多任务指令微调中缓解跨任务干扰

论大语言模型的固有可解释性：设计原则和架构调查

大语言模型可信性无训练方法的系统研究

大型语言模型能否重塑基础算法？

应用于大语言模型的可解释性研究：对比分析

提交意见反馈