data-mixing

#data-mixing

CausalMix：将数据混合视为语言模型训练的因果推断

Hugging Face Daily Papers ↗ · 2天前缓存

CausalMix将数据混合优化形式化为LLM训练的因果推断问题，使其能够动态适应数据分布的变化而无需昂贵的重新训练，并在Qwen2.5-0.5B和Qwen3-4B-Base上展示了更优的性能。

0 人收藏 0 人点赞

#data-mixing

AC-ODM: Actor-Critic在线数据混合方法用于样本高效的大语言模型预训练

Hugging Face Daily Papers ↗ · 2026-06-14 缓存

AC-ODM 使用强化学习动态优化大语言模型的预训练数据组成，实现了更快的收敛速度和更高的下游任务准确率，且计算开销可忽略不计。

0 人收藏 0 人点赞

#data-mixing

始终学习，始终混合：高效简单的全时数据混合

arXiv cs.CL ↗ · 2026-05-18 缓存

本文介绍了OP-Mix，一种数据混合算法，它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合，从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案，而计算量仅为基线方法的一小部分；在预训练中将平均困惑度提升了6.3%，在持续学习场景中减少了66-95%的计算量。

0 人收藏 0 人点赞

#data-mixing

InfoLaw：基于质量加权混合数据与重复度的大型语言模型信息缩放定律

Hugging Face Daily Papers ↗ · 2026-05-04 缓存

InfoLaw 是一种数据感知型缩放框架，能够根据 token 消耗量、模型规模、数据混合权重及重复度预测模型损失，从而在不同算力预算下实现高效的数据配方选择。

0 人收藏 0 人点赞

#data-mixing

# 大语言模型预训练的数据混合：综述与展望来源：[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要：大型语言模型（LLMs）依赖于在海量且异构的语料上进行预训练，在现实中的计算和数据预算限制下，训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同，数据混

0 人收藏 0 人点赞

data-mixing

CausalMix：将数据混合视为语言模型训练的因果推断

AC-ODM: Actor-Critic在线数据混合方法用于样本高效的大语言模型预训练

始终学习，始终混合：高效简单的全时数据混合

InfoLaw：基于质量加权混合数据与重复度的大型语言模型信息缩放定律

大语言模型预训练的数据混合：综述与展望

提交意见反馈