CausalMix:将数据混合视为语言模型训练的因果推断

Hugging Face Daily Papers 论文

摘要

CausalMix将数据混合优化形式化为LLM训练的因果推断问题,使其能够动态适应数据分布的变化而无需昂贵的重新训练,并在Qwen2.5-0.5B和Qwen3-4B-Base上展示了更优的性能。

在大语言模型(LLM)训练中,数据混合对模型性能起着关键作用。近期的方法通过代理模型优化混合权重,但它们依赖于静态数据分布的假设。因此,当底层数据池发生变化时,这些方法需要从头开始进行昂贵的重新训练。这一限制阻碍了它们从小规模设置无缝扩展到更大数据池和模型规模的能力。在本文中,我们提出CausalMix来解决这一限制,将数据混合优化形式化为一个因果推断问题。我们将数据池的统计特征表述为协变量,将领域混合表述为处理。在基于Qwen2.5-0.5B的512次运行上拟合因果模型以估计条件平均处理效应(CATE)后,我们外推得到800K数据池的最优混合,并将其应用于训练7B模型。此外,我们成功地将该框架泛化到Qwen3-4B-Base上的长思维链数据。通过利用因果建模隔离混杂偏差,CausalMix动态推断状态依赖的最优数据混合。大量实验表明,CausalMix引导的混合在多个下游任务上持续提升性能,优于RegMix及其他基线方法。此外,我们使用CATE解释器对学习到的混合策略进行可视化分析。总体而言,CausalMix为优化LLM数据混合提供了一个因果且可解释的框架。
查看原文
查看缓存全文

缓存时间: 2026/07/02 03:46

论文页面 - CausalMix:将数据混合视为语言模型训练的因果推断

来源:https://huggingface.co/papers/2607.01104

摘要

CausalMix 通过将混合优化表述为一个因果推断问题,解决了大语言模型数据混合中的局限性,使其能够在不进行昂贵重训练的情况下动态适应不断变化的数据分布。

在大语言模型训练中,数据混合(https://huggingface.co/papers?q=data%20mixing)对模型性能起着关键作用。最近的方法通过代理模型优化混合权重,但它们依赖静态数据分布的假设。因此,当底层数据池(https://huggingface.co/papers?q=data%20pool)发生变化时,这些方法需要从头开始进行昂贵的重训练。这一限制阻碍了它们从小规模设置无缝扩展到更大数据池和更大模型规模的能力。在本文中,我们提出 CausalMix 来解决这一限制,通过将数据混合优化转化为一个因果推断(https://huggingface.co/papers?q=causal%20inference)问题。我们将数据池(https://huggingface.co/papers?q=data%20pool)的统计特征视为协变量(https://huggingface.co/papers?q=covariates),将领域混合视为处理(https://huggingface.co/papers?q=treatment)。在基于 Qwen2.5-0.5B(https://huggingface.co/papers?q=Qwen2.5-0.5B)的 512 次运行上拟合因果模型以估计条件平均处理效应(CATE)(https://huggingface.co/papers?q=Conditional%20Average%20Treatment%20Effect)后,我们外推得到 800K 数据池(https://huggingface.co/papers?q=data%20pool)的最优混合,并将其应用于训练 7B 模型。此外,我们成功将该框架推广到 Qwen3-4B-Base(https://huggingface.co/papers?q=Qwen3-4B-Base)上的长思维链数据。通过利用因果建模(https://huggingface.co/papers?q=causal%20modeling)来隔离混杂偏差(https://huggingface.co/papers?q=confounding%20biases),CausalMix 动态推断出依赖于状态的最优数据混合。大量实验表明,由 CausalMix 指导的混合在多个下游任务中持续提升性能,优于 RegMix(https://huggingface.co/papers?q=RegMix)和其他基线方法。此外,我们使用 CATE 解释器(https://huggingface.co/papers?q=CATE%20Interpreter)提供所学混合策略的可视化分析。总体而言,CausalMix 为优化大语言模型数据混合提供了一个可解释的因果框架。

查看 arXiv 页面(https://arxiv.org/abs/2607.01104)查看 PDF(https://arxiv.org/pdf/2607.01104)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2607.01104)

在你的 agent 中获取本论文:

hf papers read 2607.01104

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。

引用本论文的数据集0

没有数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。

引用本论文的 Space0

没有 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。

包含本论文的集合0

没有包含本论文的集合

将此论文添加到一个集合(https://huggingface.co/new-collection)中以从此页面链接它。

相似文章

大语言模型预训练的数据混合:综述与展望

arXiv cs.CL

# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混

始终学习,始终混合:高效简单的全时数据混合

arXiv cs.CL

本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

Hugging Face Daily Papers

CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。