大语言模型预训练的数据混合:综述与展望

arXiv cs.CL 论文

摘要

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混

arXiv:2604.16380v1 公告类型:新论文 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在真实的计算和数据预算约束下,训练数据的构成对训练效率和下游泛化能力具有决定性影响。与样本级数据选择不同,数据混合通过优化领域级采样权重,更有效地分配有限的预算。近年来,越来越多的研究为 LLM 预训练提出了理论指导的数据混合方法;然而,现有文献依然分散,缺乏专门的系统性综述。本文全面回顾了 LLM 预训练中的数据混合技术。我们首先将数据混合优化形式化为概率单纯形上的双层问题,阐明数据混合在预训练流程中的作用,并简要说明现有方法如何在实践中使该建模方式变得可行。随后,我们引入一个细粒度的分类体系,从静态与动态两个维度组织现有方法。静态混合进一步分为基于规则和基于学习的方法,而动态混合则归为自适应与外部引导两类。针对每个类别,我们总结了代表性方法,并从性能与成本的权衡角度分析了其优势与局限。在此基础上,我们指出了跨方法面临的共同挑战,包括在不同数据域、优化目标、模型和验证集上可迁移性有限,评估协议和基准测试缺乏标准化,以及基于学习的方法中性能提升与成本控制之间的固有矛盾。最后,我们展望了几个探索方向,包括更细粒度的领域划分、逆向数据混合,以及面向训练流程感知的设计,旨在为未来研究提供概念与方法论层面的启示。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 07:03

# 大语言模型预训练中的数据混合:综述与展望
来源:https://arxiv.org/abs/2604.16380
查看 PDF (https://arxiv.org/pdf/2604.16380)

> **摘要:**大语言模型(LLMs)依赖于对海量异构语料库的预训练。在实际的计算与数据预算约束下,训练数据的构成对训练效率及下游泛化能力具有决定性影响。与样本级数据选择不同,数据混合通过优化领域级采样权重,能够更有效地分配有限资源。近年来,涌现出大量提出严谨原则的数据混合方法以用于 LLM 预训练;然而,现有文献依然零散,缺乏专门的系统性综述。本文对 LLM 预训练中的数据混合技术进行了全面回顾。我们首先将数据混合优化形式化为概率单纯形上的双层问题,厘清了其在预训练流水线中的角色,并简要说明了现有方法如何在实践中使该公式化求解变得可行。随后,我们引入了一套细粒度分类体系,从两个维度对现有方法进行组织:静态混合与动态混合。静态混合进一步划分为基于规则和基于学习的方法,动态混合则归类为自适应与外部引导两类。针对每个类别,我们总结了代表性方案,并从性能与成本权衡的角度剖析了各自的优势与局限。基于上述分析,我们指出了跨越各类方法的共性挑战,包括在不同数据域、优化目标、模型和验证集之间有限的可迁移性,评估协议与基准测试缺乏标准化,以及基于学习方法中性能提升与成本控制之间固有的张力。最后,我们勾勒了若干探索方向,包括更细粒度的领域划分、逆向数据混合以及流水线感知设计,旨在为未来研究提供概念与方法论层面的洞见。

## 投稿历史

From: Zhuo Chen \[查看邮箱 (https://arxiv.org/show-email/0f376c56/2604.16380)\] **\[v1\]**Wed, 25 Mar 2026 13:30:40 UTC \(3,858 KB\)

相似文章

论大语言模型的固有可解释性:设计原则和架构调查

arXiv cs.CL

一份综合调查,回顾了大语言模型(LLM)固有可解释性的最新进展,将方法分为五个设计范式:功能透明性、概念对齐、表示可分解性、显式模块化和潜在稀疏性诱导。论文解决了在模型架构中直接构建透明性,而不是依赖事后解释方法的挑战。

大型语言模型能否重塑基础算法?

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。

应用于大语言模型的可解释性研究:对比分析

arXiv cs.CL

一项对比研究,评估了三种可解释性技术(Integrated Gradients、Attention Rollout、SHAP)在微调 DistilBERT 模型上的表现,用于情感分类任务,重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。