基于半监督伪标签的标签高效数据集剪枝
摘要
SemiPrune 是一种标签高效的数据集剪枝框架,它利用半监督学习从少量标注子集中生成伪标签,使得现有的监督剪枝方法能够处理未标注数据。在领域特定、图像损坏和长尾数据集上,它达到了最先进的性能。
arXiv:2605.23198v1 Announce Type: new
摘要:数据集剪枝通过从大型数据集中选择信息丰富的子集来降低深度学习的存储和训练成本。然而,现有的大多数剪枝方法需要完全标注的数据,这限制了它们在未标注数据丰富而标注成本高昂的现实场景中的适用性。最近的无标签剪枝方法解决了这个问题,但它们依赖预训练模型的特征来估计样本难度。当目标数据集与预训练分布差异很大时,这种依赖可能不可靠。我们提出SemiPrune,一种标签高效的数据集剪枝框架,仅使用一个随机标注的小子集,利用半监督学习为未标注数据生成伪标签,使得需要标签信息的现有监督剪枝方法能够无缝应用于生成的伪标签训练池。然后我们从伪标签诱导的训练动态中估计样本难度,并选择一个核心集。通过直接从目标数据集学习,我们的方法能更好地捕捉目标分布,并为难度估计和核心集选择提供更可靠的信号。我们在领域特定、图像损坏和长尾数据集上验证了我们的方法,它在无标签和标签高效的基线中达到了最先进的性能,同时在标准基准上也展现了有竞争力的性能。
查看缓存全文
缓存时间: 2026/05/25 09:02
# 通过半监督伪标签实现标签高效的数据集剪枝
来源:https://arxiv.org/html/2605.23198
Yeseul Cho, Baekrok Shin, Changmin Kang, Chulhee Yun Kim Jaechul Graduate School of AI, KAIST \{cyseul,br\.shin,cmkang8128,chulhee\.yun\}@kaist\.ac\.kr
###### 摘要
数据集剪枝通过从大型数据集中选择信息丰富的子集,降低了深度学习的存储和训练成本。然而,大多数现有剪枝方法需要完全标注的数据,这在标注成本高昂且未标注数据丰富的现实场景中限制了其应用。近期的一些无标签剪枝方法解决了这一问题,但它们依赖于预训练模型的特征来估计样本难度。当目标数据集与预训练分布显著不同时,这种依赖性可能不可靠。我们提出SemiPrune,一种标签高效的数据集剪枝框架,仅使用少量随机标注的子集,利用半监督学习为未标注数据生成伪标签,从而使得需要标签信息的现有监督剪枝方法能够无缝应用于所得到的伪标签训练池。然后,我们从伪标签引发的训练动态中估计样本难度,并选择核心集。通过直接从目标数据集学习,我们的方法更好地捕捉目标分布,并为难度估计和核心集选择提供更可靠的信号。我们在领域特定、图像损坏和长尾数据集上验证了我们的方法,在无标签和标签高效基线中取得了最先进的性能,同时在标准基准上也展现出有竞争力的性能。¹代码见:https://github.com/cyseul/SemiPrune.git
## 1 引言
现代深度学习严重依赖大规模数据集,导致存储和训练成本大幅增加(Achiam 等,2023 (https://arxiv.org/html/2605.23198#bib.bib6);Touvron 等,2023 (https://arxiv.org/html/2605.23198#bib.bib5))。为了应对这一挑战,数据集剪枝旨在移除冗余样本,同时保留数据集中最具信息量的子集,即**核心集**。现有剪枝方法在保留核心集上训练模型时已展现出强大性能(Coleman 等,2020 (https://arxiv.org/html/2605.23198#bib.bib8);Paul 等,2021 (https://arxiv.org/html/2605.23198#bib.bib12);Zheng 等,2023 (https://arxiv.org/html/2605.23198#bib.bib13);Maharana 等,2024 (https://arxiv.org/html/2605.23198#bib.bib14);He 等,2024 (https://arxiv.org/html/2605.23198#bib.bib10);Zhang 等,2024 (https://arxiv.org/html/2605.23198#bib.bib11);Cho 等,2025 (https://arxiv.org/html/2605.23198#bib.bib23))。然而,这些方法大多需要在完全标注的数据上进行初始训练阶段。由于实际中完全标注的数据集有限,并且仅为剪枝而标注所有候选样本可能代价高昂,因此在有限的标注预算下开发剪枝方法极为可取。
几种无标签方法(Sorscher 等,2022 (https://arxiv.org/html/2605.23198#bib.bib4);Zheng 等,2025 (https://arxiv.org/html/2605.23198#bib.bib27);Griffin 等,2026 (https://arxiv.org/html/2605.23198#bib.bib28))通过从预训练模型提取的特征估计样本重要性,从而降低了标注成本。然而,它们的可靠性在很大程度上取决于预训练特征几何与目标数据的对齐程度。当目标分布与预训练数据分布不同时,例如在领域特定、图像损坏或类别不平衡的数据集中,基于特征的难度估计可能无法反映数据的真实结构。
相比之下,半监督学习(SSL)仅需少量标注样本就能有效学习目标数据集的分布(Sohn 等,2020 (https://arxiv.org/html/2605.23198#bib.bib25);Wei 等,2021 (https://arxiv.org/html/2605.23198#bib.bib29))。利用这一能力,我们提出了SemiPrune,一种用于标签高效数据集剪枝的新型框架:首先使用SSL为目标数据集生成伪标签,然后利用现有监督剪枝方法估计样本难度。由于仅需标注一小部分样本,我们的方法比需要完全标注的监督剪枝方法经济得多。此外,因为伪标签是由直接在待剪枝数据集上训练的SSL模型生成的,它们能更好地反映目标分布,从而得到更可靠的难度估计和更有效的数据集剪枝。
我们在需要目标特定难度估计的场景下评估我们的框架,包括领域特定数据集(如Food-101和SUN397)、CIFAR-100和Tiny-ImageNet的损坏变体,以及长尾数据集(如Caltech-101和CIFAR-100的长尾变体)。在这些具有挑战性的设置中,我们的方法在使用无标签或仅少量标注数据的剪枝基线中取得了最先进的性能。我们还在标准基准(包括CIFAR-10、CIFAR-100和ImageNet-1K)上进一步评估了我们的方法,表明即使预训练特征与目标数据已良好对齐,我们的方法仍具有竞争力。
## 2 相关工作
### 2.1 数据集剪枝
##### 全标注方法。
数据集剪枝旨在移除冗余样本,保留数据集中最具信息量的子集,即核心集。大多数监督方法基于定义样本重要性分数并选择得分最高的样本(Toneva 等,2019 (https://arxiv.org/html/2605.23198#bib.bib7);Coleman 等,2020 (https://arxiv.org/html/2605.23198#bib.bib8);Paul 等,2021 (https://arxiv.org/html/2605.23198#bib.bib12);Zhang 等,2024 (https://arxiv.org/html/2605.23198#bib.bib11))。然而,仅选择top-k重要样本可能会偏向整个数据集的表示,导致剪枝比例很大时性能严重下降。为了解决这个问题,近期一些方法提出了可与评分度量结合的采样方法(Xia 等,2023 (https://arxiv.org/html/2605.23198#bib.bib15);Zheng 等,2023 (https://arxiv.org/html/2605.23198#bib.bib13);Maharana 等,2024 (https://arxiv.org/html/2605.23198#bib.bib14);Cho 等,2025 (https://arxiv.org/html/2605.23198#bib.bib23))。另一些方法则将剪枝表述为优化问题,并在某些约束下贪心求解(Borsos 等,2020 (https://arxiv.org/html/2605.23198#bib.bib17);Killamsetty 等,2021a (https://arxiv.org/html/2605.23198#bib.bib24))。
##### 无标签方法。
Prototypicality(Sorscher 等,2022 (https://arxiv.org/html/2605.23198#bib.bib4))根据样本与SWaV(Caron 等,2020 (https://arxiv.org/html/2605.23198#bib.bib30))学习的嵌入空间中的聚类中心之间的距离来选择样本。近期,ELFS(Zheng 等,2025 (https://arxiv.org/html/2605.23198#bib.bib27))采用基于DINO嵌入(Caron 等,2021 (https://arxiv.org/html/2605.23198#bib.bib59);Oquab 等,2024 (https://arxiv.org/html/2605.23198#bib.bib32))的深度聚类方法(Adaloglou 等,2023 (https://arxiv.org/html/2605.23198#bib.bib31))生成伪标签,然后在完整的伪标签数据集上训练,并通过搜索最优截断比例来构建核心集。另一种零样本剪枝方法ZCore(Griffin 等,2026 (https://arxiv.org/html/2605.23198#bib.bib28))使用基础模型(Radford 等,2021 (https://arxiv.org/html/2605.23198#bib.bib61))构建零样本嵌入空间,然后迭代采样低维嵌入子空间,以识别提供广泛特征覆盖且减少冗余的样本。
##### 少标签方法。
近期也提出了仅需少量标注样本的标签高效剪枝方法。Score Extrapolation(Schmidt 等,2026 (https://arxiv.org/html/2605.23198#bib.bib33))引入了重要性**分数外推**框架:仅使用少量初始标注子集进行训练,然后通过k近邻和图神经网络将重要性分数外推到剩余数据。尽管该方法成本极低,但其性能仍劣于当前最先进的无标签方法ELFS(Zheng 等,2025 (https://arxiv.org/html/2605.23198#bib.bib27))。在本工作中,我们通过提出一种利用半监督伪标签的少标签剪枝方法,填补了这一差距,使其匹配或超越最先进的无标签方法。
### 2.2 未标注数据的伪标签
伪标签从未标注数据中提取监督信号,但其功能因可用监督而异。在完全无监督表示学习中,伪标签通常通过深度聚类获得:样本在学习到的特征空间中被分组,所得的聚类索引用作训练目标(Caron 等,2018 (https://arxiv.org/html/2605.23198#bib.bib51);YM 等,2020 (https://arxiv.org/html/2605.23198#bib.bib54);Caron 等,2020 (https://arxiv.org/html/2605.23198#bib.bib30);Van Gansbeke 等,2020 (https://arxiv.org/html/2605.23198#bib.bib57))。近期深度聚类方法进一步表明,利用来自自监督ViT和视觉语言模型(如CLIP(Radford 等,2021 (https://arxiv.org/html/2605.23198#bib.bib61))、DINO(Caron 等,2021 (https://arxiv.org/html/2605.23198#bib.bib59))和DINOv2(Oquab 等,2023 (https://arxiv.org/html/2605.23198#bib.bib62)))的丰富预训练表示,可以显著提高标准基准上的聚类质量(Adaloglou 等,2023 (https://arxiv.org/html/2605.23198#bib.bib31);Cai 等,2023 (https://arxiv.org/html/2605.23198#bib.bib60))。然而,由于这些分配是在没有类别标注的情况下产生的,它们不一定对应于语义类别。其主要作用反而是通过分组具有相似学习特征的样本来对表示空间施加结构。
在半监督学习中,伪标签服务于更面向类别的目的,因为一小部分标注样本为未标注数据的预测提供了锚点。Lee(2013 (https://arxiv.org/html/2605.23198#bib.bib41))引入了伪标签作为一种简单方法,将对未标注样本的可靠预测视为训练目标。现代的基于一致性的方法在此基础上,从弱增强图像生成伪标签,并用其监督强增强版本。FixMatch使用固定高置信度阈值过滤这些预测(Sohn 等,2020 (https://arxiv.org/html/2605.23198#bib.bib25)),而后续方法通过自适应阈值改进了这一过程(Zhang 等,2021 (https://arxiv.org/html/2605.23198#bib.bib44);Wang 等,2023 (https://arxiv.org/html/2605.23198#bib.bib26))。由于这些伪标签受目标类别监督引导,它们更可能近似语义类别,并能将标签信息从标注样本传播到未标注样本(Wei 等,2021 (https://arxiv.org/html/2605.23198#bib.bib29))。
这一区别对于标签高效的数据集剪枝尤其重要,因为伪标签可以作为估计样本难度所需的监督信息。基于聚类的方法通常依赖固定的预训练编码器,并根据其表示空间的几何结构分配伪标签。因此,所得的伪标签和难度估计反映了预训练特征空间,可能与目标任务语义不对齐。相反,基于SSL的伪标签由使用少量标注子集适配的模型产生,因此锚定在目标类别空间中,更适合估计任务相关样本难度。
### 2.3 正交工作
主动学习也旨在降低标注成本,但它在训练过程中通过查询oracle来迭代获取信息样本的标签(Ash 等,2019 (https://arxiv.org/html/2605.23198#bib.bib36);Killamsetty 等,2021a (https://arxiv.org/html/2605.23198#bib.bib24);Hacohen 等,2022 (https://arxiv.org/html/2605.23198#bib.bib37))。因此,其样本选择与模型当前状态紧密相关,并随训练过程逐步进行。相比之下,我们的方法从固定的、随机选择的小型标注子集开始,使用它训练一个具有SSL目标的模型,然后基于该模型生成的伪标签一次性构建核心集。
我们的工作也不同于动态数据集剪枝方法(Qin 等,2023 (https://arxiv.org/html/2605.23198#bib.bib38);Okanovic 等,2024 (https://arxiv.org/html/2605.23198#bib.bib40);Yuan 等,2025 (https://arxiv.org/html/2605.23198#bib.bib39))。我们研究的是静态设置:核心集被离线选择,并在训练过程中保持固定。相反,动态剪枝方法在训练过程中通过更新优化步骤的重要性分数来重复更新保留的子集。重要的是,这需要持续访问完整原始数据集,因为在一个阶段被剪枝的样本可能在后续需要被重新引入。因此,这些方法的操作设置与我们的不同,我们的核心集在初始剪枝阶段后固定,训练过程中不再访问剩余数据。
我们还将我们的方法与专门为SSL框架设计的剪枝方法(Killamsetty 等,2021b (https://arxiv.org/html/2605.23198#bib.bib35))区分开来。与这些方法在SSL训练中使用保留核心集不同,我们仅使用SSL生成伪标签,然后在所选核心集上使用标准监督学习训练模型。
## 3 方法
### 3.1 方法概述
我们的方法称为SemiPrune,遵循两阶段流程。首先,我们随机选择一个小型子集进行标注,并使用该标注子集和剩余未标注样本,在SSL目标下训练模型。然后,我们使用训练好的模型为未标注样本分配伪标签,同时保留初始标注样本的真实标签。其次,我们在该伪标签训练集上从头开始训练一个监督模型,并从其训练动态中计算每个样本的重要性分数。然后,这些分数与现有剪枝程序一起用于选择核心集。
这种方法的动机源于ELFS,它展示了当真实标签不可用时,伪标签可以使数据集剪枝成为可能(Zheng 等,2025 (https://arxiv.org/html/2605.23198#bib.bib27))。然而,ELFS通过对固定预训练表示使用深度聚类方法来获得伪标签。相比之下,我们使用SSL生成伪标签,它利用了小型标注子集和未标注的目标数据。这使得伪标签能更好地适应目标分布,尤其在预训练特征不可靠时。
### 3.2 基于深度聚类的伪标签的局限性
我们首先考察基于深度聚类的伪标签变得脆弱的场景。ELFS(Zheng 等,2025 (https://arxiv.org/html/2605.23198#bib.bib27))采用的深度聚类方法依赖于从ImageNet预训练的基础模型提取的特征(Oquab 等,2024 (https://arxiv.org/html/2605.23198#bib.bib32);相似文章
用于医学图像分割的质量引导半监督学习
本文提出了一种用于医学图像分割的质量引导半监督学习框架,该框架训练一个专用预测器,从图像-掩膜对中估计分割质量,从而提高伪标签的可靠性,并在多个数据集和架构上取得了最先进的结果。
SLAP:用于在线策略数据高效指令微调的分层损失剪枝方法
提出SLAP,一种用于大型语言模型高效指令微调的新型数据选择框架,它评估批次可学习性并采用分层采样,以在减少20-40%训练数据的情况下实现卓越性能。
通过令牌剪枝优化韩语中心的大语言模型
本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。
CSI-JEPA:面向最小监督下泛在感知的基础表征
CSI-JEPA是一个自监督框架,从无标签的Wi-Fi信道状态信息中学习可复用的表征,实现标签高效的多任务感知。它能节省高达98%的标签,并优于监督模型。