CausalMix：将数据混合视为语言模型训练的因果推断

Hugging Face Daily Papers 2026/07/01 00:00 论文

causal-inference data-mixing language-model llm-training optimization qwen

摘要

CausalMix将数据混合优化形式化为LLM训练的因果推断问题，使其能够动态适应数据分布的变化而无需昂贵的重新训练，并在Qwen2.5-0.5B和Qwen3-4B-Base上展示了更优的性能。

在大语言模型（LLM）训练中，数据混合对模型性能起着关键作用。近期的方法通过代理模型优化混合权重，但它们依赖于静态数据分布的假设。因此，当底层数据池发生变化时，这些方法需要从头开始进行昂贵的重新训练。这一限制阻碍了它们从小规模设置无缝扩展到更大数据池和模型规模的能力。在本文中，我们提出CausalMix来解决这一限制，将数据混合优化形式化为一个因果推断问题。我们将数据池的统计特征表述为协变量，将领域混合表述为处理。在基于Qwen2.5-0.5B的512次运行上拟合因果模型以估计条件平均处理效应（CATE）后，我们外推得到800K数据池的最优混合，并将其应用于训练7B模型。此外，我们成功地将该框架泛化到Qwen3-4B-Base上的长思维链数据。通过利用因果建模隔离混杂偏差，CausalMix动态推断状态依赖的最优数据混合。大量实验表明，CausalMix引导的混合在多个下游任务上持续提升性能，优于RegMix及其他基线方法。此外，我们使用CATE解释器对学习到的混合策略进行可视化分析。总体而言，CausalMix为优化LLM数据混合提供了一个因果且可解释的框架。

查看原文

查看缓存全文

缓存时间: 2026/07/02 03:46

论文页面 - CausalMix：将数据混合视为语言模型训练的因果推断

来源：https://huggingface.co/papers/2607.01104

摘要

CausalMix 通过将混合优化表述为一个因果推断问题，解决了大语言模型数据混合中的局限性，使其能够在不进行昂贵重训练的情况下动态适应不断变化的数据分布。

在大语言模型训练中，数据混合（https://huggingface.co/papers?q=data%20mixing）对模型性能起着关键作用。最近的方法通过代理模型优化混合权重，但它们依赖静态数据分布的假设。因此，当底层数据池（https://huggingface.co/papers?q=data%20pool）发生变化时，这些方法需要从头开始进行昂贵的重训练。这一限制阻碍了它们从小规模设置无缝扩展到更大数据池和更大模型规模的能力。在本文中，我们提出 CausalMix 来解决这一限制，通过将数据混合优化转化为一个因果推断（https://huggingface.co/papers?q=causal%20inference）问题。我们将数据池（https://huggingface.co/papers?q=data%20pool）的统计特征视为协变量（https://huggingface.co/papers?q=covariates），将领域混合视为处理（https://huggingface.co/papers?q=treatment）。在基于 Qwen2.5-0.5B（https://huggingface.co/papers?q=Qwen2.5-0.5B）的 512 次运行上拟合因果模型以估计条件平均处理效应（CATE）（https://huggingface.co/papers?q=Conditional%20Average%20Treatment%20Effect）后，我们外推得到 800K 数据池（https://huggingface.co/papers?q=data%20pool）的最优混合，并将其应用于训练 7B 模型。此外，我们成功将该框架推广到 Qwen3-4B-Base（https://huggingface.co/papers?q=Qwen3-4B-Base）上的长思维链数据。通过利用因果建模（https://huggingface.co/papers?q=causal%20modeling）来隔离混杂偏差（https://huggingface.co/papers?q=confounding%20biases），CausalMix 动态推断出依赖于状态的最优数据混合。大量实验表明，由 CausalMix 指导的混合在多个下游任务中持续提升性能，优于 RegMix（https://huggingface.co/papers?q=RegMix）和其他基线方法。此外，我们使用 CATE 解释器（https://huggingface.co/papers?q=CATE%20Interpreter）提供所学混合策略的可视化分析。总体而言，CausalMix 为优化大语言模型数据混合提供了一个可解释的因果框架。

查看 arXiv 页面（https://arxiv.org/abs/2607.01104）查看 PDF（https://arxiv.org/pdf/2607.01104）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2607.01104）

在你的 agent 中获取本论文：

hf papers read 2607.01104

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。

引用本论文的数据集0

没有数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。

引用本论文的 Space0

没有 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2607.01104 以从此页面链接它。

包含本论文的集合0

没有包含本论文的集合

将此论文添加到一个集合（https://huggingface.co/new-collection）中以从此页面链接它。

CausalMix：将数据混合视为语言模型训练的因果推断

论文页面 - CausalMix：将数据混合视为语言模型训练的因果推断

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Space0

包含本论文的集合0

相似文章

大语言模型预训练的数据混合：综述与展望

始终学习，始终混合：高效简单的全时数据混合

FastMix：通过梯度下降的快速数据混合优化

RegMix-D: 通过代理训练轨迹实现动态数据混合

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

提交意见反馈