标签
CausalMix将数据混合优化形式化为LLM训练的因果推断问题,使其能够动态适应数据分布的变化而无需昂贵的重新训练,并在Qwen2.5-0.5B和Qwen3-4B-Base上展示了更优的性能。
AC-ODM 使用强化学习动态优化大语言模型的预训练数据组成,实现了更快的收敛速度和更高的下游任务准确率,且计算开销可忽略不计。
本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。
InfoLaw 是一种数据感知型缩放框架,能够根据 token 消耗量、模型规模、数据混合权重及重复度预测模型损失,从而在不同算力预算下实现高效的数据配方选择。
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混