DeMix:通过影响向量调试混合错误类型的训练数据

arXiv cs.LG 论文

摘要

DeMix 是一个新颖的框架,通过分析影响向量来检测错误训练样本并识别其具体错误类型(标签错误、特征错误、虚假关联),在数据修复后实现了调试F1分数提升22.61%和任务性能提升9.32%。

arXiv:2606.11616v1 公告类型:新 摘要:高质量的训练数据对于机器学习模型的成功至关重要。然而,现实世界的数据集通常包含因数据准备过程中的系统性缺陷而产生的混合类型错误,包括标签错误、特征错误和虚假关联。有效的训练数据调试既需要检测错误样本,也需要识别其特定错误类型以实现针对性修复,然而现有的数据清洗和归因方法未能充分满足这一双重需求。在本文中,我们提出DeMix,这是一个同时诊断错误样本及其错误类型的新颖框架。我们的关键洞察是,不同类型的错误会对模型行为产生不同的模式。DeMix通过影响向量捕捉这些特定于错误的模式,该向量描述了每个训练样本如何影响所有验证样本的模型预测。我们将训练数据调试形式化为一个多标签分类问题,开发一个分类器直接从影响向量预测错误类型。我们进一步引入了一种基于干预的学习策略,引导分类器捕捉每种错误类型特有的不变理由,确保学习到的分类器能够有效泛化。在表格数据预测、推荐系统和LLM对齐等11项任务上的实验评估表明,DeMix显著优于最先进的方法,数据修复后在数据调试F1分数上提升了22.61%,任务模型性能上提升了9.32%。代码可在 https://github.com/SJTU-DMTai/DeMix 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:50

# DeMix:通过影响向量调试含混合数据错误类型的训练数据
来源:https://arxiv.org/html/2606.11616 \(2026\)

###### 摘要。

高质量的训练数据是机器学习模型成功的关键。然而,现实世界的数据集通常包含由数据准备流程中的系统性缺陷引起的混合类型错误,包括标签错误、特征错误和虚假相关。有效调试训练数据既需要检测错误样本,也需要识别其特定的错误类型,以便进行针对性修复,但现有的数据清洗和归因方法未能充分满足这一双重需求。在本文中,我们提出 DeMix,一种新颖的框架,能够同时诊断错误样本及其错误类型。我们的核心洞察是:不同类型的错误会在模型行为上产生不同的模式。DeMix 通过影响向量捕捉这些错误特定的模式,这些向量刻画了每个训练样本如何影响模型在所有验证样本上的预测。我们将训练数据调试形式化为一个多标签分类问题,其中开发一个分类器直接根据影响向量预测错误类型。我们进一步引入一种基于干预的学习策略,指导分类器捕捉每种错误类型特有的不变理性,确保学习到的分类器能够有效泛化。在表格数据预测、推荐系统和大型语言模型对齐的 11 个任务上的实证评估表明,DeMix 显著优于最先进的方法,在数据调试 F1 分数上实现了 22.61% 的提升,并在数据修复后任务模型性能上实现了 9.32% 的提升。代码可在以下网址获取:https://github.com/SJTU-DMTai/DeMix。

数据调试;数据归因;数据错误;影响函数;††journalyear:2026††copyright:cc††conference:第32届ACM SIGKDD知识发现与数据挖掘会议 V.2;2026年8月09–13日;韩国济州岛††booktitle:第32届ACM SIGKDD知识发现与数据挖掘会议论文集 V.2 (KDD '26),2026年8月09–13日,韩国济州岛††doi:10.1145/3770855.3817774††isbn:979-8-4007-2259-2/2026/08††ccs:计算方法 神经网络††ccs:信息系统 数据清洗

## 1. 引言

数据是驱动各种机器学习应用的基础资源,从推荐系统 (Yin 等, 2024 (https://arxiv.org/html/2606.11616#bib.bib40); Zhang 等, 2025b (https://arxiv.org/html/2606.11616#bib.bib43); Kersbergen 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib17)) 到基于大型语言模型的应用 (Xia 等, 2024 (https://arxiv.org/html/2606.11616#bib.bib38); Peng 等, [[n.d.]](https://arxiv.org/html/2606.11616#bib.bib28); Deng 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib8), [[n.d.]](https://arxiv.org/html/2606.11616#bib.bib9); Weng 等, 2026 (https://arxiv.org/html/2606.11616#bib.bib35); Zhao 等, 2026 (https://arxiv.org/html/2606.11616#bib.bib44))。训练数据质量已成为模型性能的主要决定因素,在机器学习部署中建立了新的以数据为中心的范式 (Liang 等, 2022 (https://arxiv.org/html/2606.11616#bib.bib23))。然而,为模型训练准备数据涉及一个多阶段流程,通常包括数据收集、转换、特征工程和标注 (Liang 等, 2022 (https://arxiv.org/html/2606.11616#bib.bib23))。每个阶段可能存在系统性缺陷,从而将不同类型的错误引入最终训练数据集。常见的错误类型包括由模糊的标注指南引起的错误标签样本 (Myrtakis 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib26); Deng 等, 2024 (https://arxiv.org/html/2606.11616#bib.bib10); Kong 等, 2021 (https://arxiv.org/html/2606.11616#bib.bib19))、由特征处理系统中的错误导致的损坏特征 (Myrtakis 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib26); Ding 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib11)),以及由选择偏差或混杂变量引起的虚假相关 (Ye 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib39); Wu 等, 2023 (https://arxiv.org/html/2606.11616#bib.bib36); Chen 等, 2024a (https://arxiv.org/html/2606.11616#bib.bib4); Gao 等, 2026 (https://arxiv.org/html/2606.11616#bib.bib12))。当模型在包含此类混合错误类型的数据上训练时,它们不可避免地会学习到错误和有偏的模式,导致不可靠的预测和显著的部署风险。因此,*训练数据调试* 已成为一个关键问题,需要解决两个相互关联的问题:*哪些训练样本是错误的*,以及*它们包含何种类型的错误*。同时回答这两个问题对于定位系统性缺陷并从源头修复它们至关重要。

已有各种努力致力于提高训练数据质量,通常可以分为两类。数据清洗方法 (Chu 等, 2016 (https://arxiv.org/html/2606.11616#bib.bib7); Siddiqi 等, 2023 (https://arxiv.org/html/2606.11616#bib.bib30); Ding 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib11); Bao 等, 2024 (https://arxiv.org/html/2606.11616#bib.bib3)) 主要假设错误样本在统计上与干净数据存在偏差,因此可以通过分布分析、异常检测或一致性检查来标记。虽然这些方法对随机错误和孤立异常有效,但在识别训练数据中的系统性错误方面存在局限。例如,如果某个特定子组由于错误的标注函数而被一致地错误标记,那么相对于同一组中的其他样本,没有一个样本显得异常,这使得数据清洗方法无效。最近,数据归因方法 (Deng 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib8); Hammoudeh and Lowd, 2024 (https://arxiv.org/html/2606.11616#bib.bib13); Myrtakis 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib26); Kersbergen 等, 2025 (https://arxiv.org/html/2606.11616#bib.bib17); Zhang 等, 2025b (https://arxiv.org/html/2606.11616#bib.bib43)) 已成为一种有前景的替代方案。它们使用影响函数 (Koh and Liang, 2017 (https://arxiv.org/html/2606.11616#bib.bib18); Kong 等, 2021 (https://arxiv.org/html/2606.11616#bib.bib19); Hammoudeh and Lowd, 2024 (https://arxiv.org/html/2606.11616#bib.bib13)) 来量化移除一个训练样本如何影响模型在验证集上的性能,并将那些对模型产生负面影响的样本标记为错误。然而,它们主要侧重于识别错误样本,而错误类型分类问题仍未解决。此外,准确的数据归因依赖于干净、无偏的验证集的可用性,这在许多实际应用中很难获得,例如在推荐系统中,验证数据往往与训练数据遭受相同的系统性错误。因此,现有方法对于全面的训练数据调试是不充分的。

为了解决这个问题,我们的核心洞察是:系统性的训练数据错误通常会在模型行为中引入一致的偏差,这些偏差反映在训练样本如何影响模型在整个验证集上的预测。关键在于,通过影响函数,不同的错误类型会在验证数据上引发性质不同的模式。例如,带有标签错误的样本往往会对具有相似特征但正确标签的验证样本施加负面影响。相比之下,带有虚假相关的样本通常会对共享虚假属性的验证样本产生正面影响,而对违反虚假模式的反例产生负面影响。因此,我们通过使用完整的影响向量而不是将影响聚合为单个标量来捕捉这些错误特定的模式。形式上,对于训练样本 \(z_i\),*影响向量* 定义为 \(\Phi_i = [\phi_{i,1}, ..., \phi_{i,M}]\),其中 \(M\) 是验证集大小。每个条目 \(\phi_{i,j}\) 衡量移除 \(z_i\) 对验证样本 \(z_j\) 损失的影响,通过影响函数计算。图 1 (https://arxiv.org/html/2606.11616#S1.F1) 提供了影响向量区分能力的实证证据:对于一个训练样本 \(\{z_i\}\),我们比较其影响向量 \(\Phi_i\) 和原始特征 \(\{z_i = (x_i, y_i)\}\) 的 t-SNE 嵌入。在包括标签错误 (LE)、特征错误 (FE) 和虚假相关 (SC) 的三种错误类型中,可视化显示影响向量成功地将错误特定的聚类分离,而这些聚类在原始数据空间中仍然是混合的。我们在其他数据集上观察到一致的聚类结果,详见附录 A (https://arxiv.org/html/2606.11616#A1)。

基于我们的洞察,我们开发了一个多标签分类器,它接收每个训练样本 \(z_i \in \mathcal{D}_t\) 的影响向量 \(\Phi_i\) 作为输入,并预测一组错误类型,表示为 \(\hat{\rm t}_i\)。由于影响向量编码了与无序验证集的交互,我们采用集合变换器 (Lee 等, 2019 (https://arxiv.org/html/2606.11616#bib.bib22)) 将 \(\Phi_i\) 编码为低维表示,然后通过多个 MLP 头解码以进行最终预测。为了便于分类器的监督训练,我们提供了一种受控的错误注入策略,生成合成数据集,其中选定的训练样本被故意损坏,并具有已知的错误类型注释。请注意,我们不假设验证集是完全干净或无偏的。由于我们专注于识别特征模式而不是依赖影响向量中的绝对值,只要不同错误类型引发的模式保持可区分,我们的方法可以容忍有噪声的验证数据。

然而,所提出解决方案中的一个关键挑战仍然存在:影响向量不仅取决于训练数据本身,还取决于用于影响计算配置。验证集的选择和任务模型实例都会影响结果向量,即使底层训练数据保持不变。如果没有适当的控制,分类器可能会利用配置特定的模式,这些模式无法泛化到训练设置之外。为了缓解这个问题,我们引入了一种不变表示学习策略,鼓励集合变换器编码器提取在不同影响计算设置中稳定的错误特定模式。从信息瓶颈的角度 (Tishby 等, 2000 (https://arxiv.org/html/2606.11616#bib.bib32); Alemi 等, 2017 (https://arxiv.org/html/2606.11616#bib.bib2); Miao 等, 2022 (https://arxiv.org/html/2606.11616#bib.bib25)),这种策略学习一个最小充分的表示,保留错误类型语义的同时过滤配置特定的噪声(详细分析见附录 C (https://arxiv.org/html/2606.11616#A3))。这是通过两种干预实现的。首先,我们通过使用不同随机采样的验证子集计算多个影响向量来干预验证集,并应用对比损失以保持它们的表示接近。其次,我们通过使用在架构或初始化上有所不同的模型集成来计算影响向量来干预任务模型,并通过成对一致性损失对其表示进行对齐。这些损失一起迫使编码器关注跨配置持续存在的模式,从而改善训练数据调试中的泛化。

在本文中,我们提出 DeMix,一个为调试含混合错误类型的训练数据而设计的自动化框架。该框架首先计算训练样本的影响向量,然后将其输入分类器以预测错误样本及其错误类型。我们在涵盖表格数据预测、推荐系统和大型语言模型对齐的 11 个任务上评估了 DeMix。结果表明,DeMix 显著优于最先进的基线,在错误类型分类 F1 分数上实现了 22.61% 的提升,并在使用修复后的训练数据时任务模型性能上实现了 9.32% 的提升。

图 1. (a) 影响向量和 (b) 错误样本原始特征的 t-SNE 可视化,其中在 Adult 数据集中注入了三种类型的错误(更多结果见附录 A (https://arxiv.org/html/2606.11616#A1))。

本文的主要贡献总结如下。

- • 我们研究了调试含混合错误类型的训练数据这一尚未充分探索的问题,该问题需要同时识别错误样本及其对应的错误类型。我们揭示了影响向量能够有效捕捉不同错误类型影响模型预测的不同模式。
- • 我们提出了 DeMix,一种新颖的框架,通过将问题形式化为以影响向量为输入的多标签分类,同时诊断错误样本及其错误类型。我们进一步引入了基于干预的训练目标,指导分类器捕捉不变且错误特定的模式。
- • 跨多种机器学习任务和任务模型的广泛实验表明,DeMix 通过准确调试含混合错误类型的数据,并通过针对不同错误类型的针对性修复改善任务模型性能,优于最先进的基线。

## 2. 预备知识

我们考虑一个标准的监督机器学习设置,涉及一个任务模型 \(f_\theta: \mathcal{X} \to \mathcal{Y}\),它将输入 \(x_i\) 从输入空间 \(\mathcal{X}\) 映射到标签空间 \(\mathcal{Y}\) 中的标签 \(y_i\),其中 \(\theta\) 是模型参数。给定一个包含 \(N\) 个样本的训练数据集 \(\mathcal{D}_t = \{z_i = (x_i, y_i)\}_{i=1}^N\),目标是学习最优参数 \(\theta^*\),以最小化预定义的损失函数 \(\ell\),例如交叉熵或均方误差。形式上,我们有:\( (1) \) \(\theta^* = \arg\min_{\theta} \frac{1}{N} \sum_{i=1}^N \ell(f_\theta(x_i), y_i).\)

**数据错误类型。** 在本文中,我们考虑在现实世界训练数据中普遍存在的以下三种错误类型。

(1) **标签错误 (LE)**。令 \(y_i^*\) 表示训练样本 \(z_i\) 的真实标签。我们将带有标签错误的样本集合定义为 \(\mathcal{D}_t^{\rm LE} = \{z_i = (x_i, y_i) \mid y_i \neq y_i^*\}\)。标签错误无处不在,通常源于不完善的标注过程,包括众包任务中的人类主观性和自动化标注功能中的故障 (Liang 等, 2022 (https://arxiv.org/html/2606.11616#bib.bib23))。

(2) **特征错误 (FE)**。令 \(x_i^*\) 表示样本 \(z_i\) 的真实特征。带有特征错误的样本集合表示为 \(\mathcal{D}_t^{\rm FE} = \{z_i = (x_i, y_i) \mid x_i \neq x_i^*\}\)。特征错误以各种形式表现,例如缺失值、异常值和属性依赖违反。这些异常通常源于数据准备、转换或特征工程阶段中偶发或系统的故障。

[Note: The input was cut off at this point. I have translated the provided content up to the end of Section 2's second bullet. The rest of the paper was not included in the user input, so I stop here. If there is more content, please provide it for complete translation.]

相似文章

始终学习,始终混合:高效简单的全时数据混合

arXiv cs.CL

本文介绍了OP-Mix,一种数据混合算法,它利用在当前模型上训练的低秩适配器来廉价模拟候选数据混合,从而在预训练、持续中间训练和持续指令微调中实现高效统一的数据混合。OP-Mix 始终能找出接近最优的混合方案,而计算量仅为基线方法的一小部分;在预训练中将平均困惑度提升了6.3%,在持续学习场景中减少了66-95%的计算量。