CausalMix:将数据混合视为语言模型训练的因果推断
摘要
CausalMix将数据混合优化形式化为LLM训练的因果推断问题,使其能够动态适应数据分布的变化而无需昂贵的重新训练,并在Qwen2.5-0.5B和Qwen3-4B-Base上展示了更优的性能。
查看缓存全文
缓存时间: 2026/07/02 03:46
论文页面 - CausalMix:将数据混合视为语言模型训练的因果推断
来源:https://huggingface.co/papers/2607.01104
摘要
CausalMix 通过将混合优化表述为一个因果推断问题,解决了大语言模型数据混合中的局限性,使其能够在不进行昂贵重训练的情况下动态适应不断变化的数据分布。
在大语言模型训练中,数据混合(https://huggingface.co/papers?q=data%20mixing)对模型性能起着关键作用。最近的方法通过代理模型优化混合权重,但它们依赖静态数据分布的假设。因此,当底层数据池(https://huggingface.co/papers?q=data%20pool)发生变化时,这些方法需要从头开始进行昂贵的重训练。这一限制阻碍了它们从小规模设置无缝扩展到更大数据池和更大模型规模的能力。在本文中,我们提出 CausalMix 来解决这一限制,通过将数据混合优化转化为一个因果推断(https://huggingface.co/papers?q=causal%20inference)问题。我们将数据池(https://huggingface.co/papers?q=data%20pool)的统计特征视为协变量(https://huggingface.co/papers?q=covariates),将领域混合视为处理(https://huggingface.co/papers?q=treatment)。在基于 Qwen2.5-0.5B(https://huggingface.co/papers?q=Qwen2.5-0.5B)的 512 次运行上拟合因果模型以估计条件平均处理效应(CATE)(https://huggingface.co/papers?q=Conditional%20Average%20Treatment%20Effect)后,我们外推得到 800K 数据池(https://huggingface.co/papers?q=data%20pool)的最优混合,并将其应用于训练 7B 模型。此外,我们成功将该框架推广到 Qwen3-4B-Base(https://huggingface.co/papers?q=Qwen3-4B-Base)上的长思维链数据。通过利用因果建模(https://huggingface.co/papers?q=causal%20modeling)来隔离混杂偏差(https://huggingface.co/papers?q=confounding%20biases),CausalMix 动态推断出依赖于状态的最优数据混合。大量实验表明,由 CausalMix 指导的混合在多个下游任务中持续提升性能,优于 RegMix(https://huggingface.co/papers?q=RegMix)和其他基线方法。此外,我们使用 CATE 解释器(https://huggingface.co/papers?q=CATE%20Interpreter)提供所学混合策略的可视化分析。总体而言,CausalMix 为优化大语言模型数据混合提供了一个可解释的因果框架。
查看 arXiv 页面(https://arxiv.org/abs/2607.01104)查看 PDF(https://arxiv.org/pdf/2607.01104)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2607.01104)
在你的 agent 中获取本论文:
hf papers read 2607.01104
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。
引用本论文的数据集0
没有数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。
引用本论文的 Space0
没有 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。
包含本论文的集合0
没有包含本论文的集合
将此论文添加到一个集合(https://huggingface.co/new-collection)中以从此页面链接它。
相似文章
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混
始终学习,始终混合:高效简单的全时数据混合
本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。
FastMix:通过梯度下降的快速数据混合优化
FastMix 是一个新颖的框架,通过使用单个代理模型和双层优化自动发现训练大型模型的数据混合方式,实现了最先进的性能,并大幅提升效率。
RegMix-D: 通过代理训练轨迹实现动态数据混合
RegMix-D 将 RegMix 扩展到动态数据混合,通过使用代理运行的损失轨迹来预测多个训练阶段的最优混合比例,相比静态方法取得了改进。
CausaLab: 面向AI科学家的可扩展交互式因果发现环境
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。