面向极端标签偏移域适应的局部感知私有类识别
摘要
本文提出了一种局部感知的私有类识别方法,以及一种基于可靠最优传输的方法(ReOT),以解决极端标签偏移下的域适应挑战,特别是区分共享类与私有类。
arXiv:2605.05567v1 公告类型:新论文
摘要:域适应旨在将知识从有标签的源域转移到分布不同的无标签目标域。在现实场景中,两个域的标签空间通常存在包含关系,即某些类别仅存在于一个域中而不在另一个域中。这些不重叠的类别被称为私有类。在文献中,识别私有类样本并减轻其不利影响至关重要。现有方法依赖于这样的假设:私有类的偏移足够大,可以被视为异常值。然而,单个共享类内部的方差可能显著大于私有类与另一个共享类之间的差异,这对上述假设构成了挑战。因此,私有类大幅增加了跨域分类的难度。为了解决这些问题,基于最优传输(OT)的局部传输和度量特性,本文提出了一种局部感知的私有类识别方法,表现为传输质量上的得分函数。所提方法的有效性已在理论上得到证明,凸显了该得分函数在区分共享类和私有类样本方面的强大能力。在此基础上,我们引入了一种基于可靠最优传输的方法(ReOT),用于严重标签偏移下的域适应。ReOT在最小化分类风险的同时,学习已识别的共享类与私有类之间的分离簇结构,有效避免了共享类-私有类样本对之间的不匹配,从而确保重要的知识在类内可靠传输,以减轻类条件差异。此外,本文还给出了极端标签偏移场景下目标风险的泛化上界,该上界可通过ReOT最小化。在基准数据集上的大量实验验证了ReOT的有效性。
查看缓存全文
缓存时间: 2026/05/08 08:26
# 针对极端标签偏移的局部感知私有类识别域自适应 来源: https://arxiv.org/html/2605.05567 Chuan-Xian Ren, Cheng-Jun Guo, 和 Hong Yan C.X. Ren 和 C.J. Guo 来自中山大学数学学院,中国广州 510275。Hong Yan 来自香港城市大学电气工程系,中国香港。C.X. Ren 为通讯作者(邮箱: [email protected])。 本研究部分受到国家重点研发计划(2024YFA1011900)的支持,部分受到国家自然科学基金(批准号 62376291)的支持,部分受到广东省基础与应用基础研究基金(2023B1515020004)的支持,部分受到广州市科技计划(2024A04J6413)的支持,部分受到中山大学中央高校基本科研业务费(24xkjc013)的支持,以及部分受到香港创新及科技局(ITC)(InnoHK 项目 CIMDA)和香港城市大学数字医学研究所(项目 9229503)的支持。 ###### 摘要 域自适应旨在将知识从带有标签的源领域转移到具有不同分布的无标签目标领域。在现实场景中,两个领域的标签空间通常存在包含关系,即某些类别只存在于一个领域而不存在于另一个领域。这些非重叠类别被称为私有类。识别私有类样本并减轻其不利影响是文献中的关键问题。现有方法依赖于这样一个假设:私有类的偏移足够大,可以被视为异常值。然而,单个共享类内部的方差可能显著大于私有类与另一个共享类之间的差异,这对这一假设提出了挑战。因此,私有类大幅增加了跨域分类的难度。为解决这些问题,基于最优传输(OT)的局部传输和度量性质,提出了一种局部感知的私有类识别方法,形式为传输质量上的评分函数。所提出方法的有效性在理论上得到了证明,突出了评分函数区分共享类和私有类样本的强大能力。在此基础上,我们介绍了一种基于 OT 的可靠方法(ReOT),用于严重标签偏移下的域自适应。ReOT 在最小化分类风险的同时,学习已识别的共享类和私有类之间的分离簇结构,有效避免共享-私有样本对之间的不匹配,从而确保重要知识在类内可靠传输,以减轻类条件差异。此外,我们为极端标签偏移场景下的目标风险提供了泛化上界,该上界可以通过 ReOT 最小化。在基准数据集上的大量实验验证了 ReOT 的有效性。 ###### 索引术语:开集域自适应,部分域自适应,最优传输,泛化误差分析,私有类识别。 ## 1 引言 众所周知,具有强泛化性能模型需要大规模且标注充分的数据集。然而,从现实世界收集的数据通常是无标签的,而对大规模数据集进行标注通常需要极高的成本。特别地,收集的数据集可能具有不同的数据分布,导致模型性能严重下降。为了解决这些问题,无监督域自适应(UDA)[1, 2, 3] 受到了广泛关注,旨在将知识从带标签的领域(即源领域)转移到具有不同数据分布的无标签领域(即目标领域),显著节省了为目标领域收集标签所需的时间和人力。然而,大多数现有的 UDA 工作 [4, 5, 6] 遵循闭集假设,即两个领域共享相同的标签空间。这严重限制了它们在现实世界场景中的应用,因为源和目标领域的标签空间通常是异构的或存在极端偏移。具体来说,这些异构场景大致可分为两类:1) 源标签空间是目标标签空间的子集;2) 源标签空间包含目标标签空间。为了解决这两个现实挑战,分别提出了开集域自适应(OSDA)[7, 8, 9] 和部分域自适应(PDA)[10, 11, 12]。这两种情况可以视为极端标签偏移域自适应的情况。通常,OSDA 假设私有类存在于目标领域,并要求模型识别它们。PDA 显示出类似的情况,但私有类存在于源领域。因此,OSDA 和 PDA 都面临两个主要挑战:1) 共享类上的域差距:共享类在源和目标领域之间的数据分布不同,降低了这些类上的分类准确率。2) 类别差距:一个领域(源或目标)中私有类的缺失导致目标领域中模型性能的显著下降,即使模型在源领域表现良好。在这两个挑战中,类别差距是核心问题。它不仅本身难以解决,而且由于私有类的缺失可能导致私有类与共享类之间的错位,使得使用研究透彻的域对齐技术解决域差异变得复杂。因此,减轻类别差距的不利影响至关重要。目前大多数工作 [13, 14, 15] 通过以下两个步骤解决这些挑战:1) 识别并分离私有类样本以消除标签偏移;2) 实施域对齐方法以减轻域差异。遵循这一策略,这些工作可以识别一些目标/源私有样本并实现一定程度的域对齐,从而获得良好的模型性能。尽管取得了巨大成功,但值得注意的是,主流方法往往只关注一种情况,忽略了 OSDA 和 PDA 之间的联系。事实上,OSDA 和 PDA 在某种意义上是对称的,最大的区别在于私有类存在于哪个领域。虽然 OSDA 可能更具挑战性,因为私有类数据是无标签的,而在 PDA 中私有类数据是有标签的,但我们强调,适当的方法应该能够解决这两种情况。同时,重要的是要认识到,即使只考虑一种情况,以前的方法也存在显著局限性,因为它们通常依赖不切实际的强假设来识别私有类样本。具体来说,以前工作中的私有类识别主要包括基于重要性加权的方法 [10, 16] 和基于阈值的方法 [8, 17, 15]。基于重要性加权的方法在 PDA 中广泛使用。然而,它们涉及为私有类样本分配非常小的权重,而学习高质量权重通常依赖于域差异可忽略不计的强假设。基于阈值的方法使用度量来确定样本属于私有类的可能性。如果度量值超过某个阈值,则该样本被归类为私有类。为确保有效性,这些方法通常假设共享类内部的差距始终小于私有类与共享类之间的差距。虽然这一假设可能比可忽略的域差异不那么严格,但在实践中仍然难以满足。如图 1 所示,在现实场景中,单个共享类内部的差距可能显著大于私有类与另一个共享类之间的差距。这与许多现有方法的基本假设相矛盾。因此,有必要探索一种可靠的方法,以确保在现实条件下私有类识别的有效性。 参见标题 (a) 开集域自适应 (OSDA) 参见标题 (b) 部分域自适应 (PDA) 图 1: 无监督域自适应中的两种典型极端标签偏移,即 (a) OSDA;(b) PDA。 为了实现成功的私有类识别,现有方法通常假设私有类的语义偏移始终大于共享类的域偏移。然而,特定共享类的方差可能大于私有类与另一个共享类之间的差距。彩色视图更佳。 接下来,我们探讨极端标签偏移场景下私有类识别方法的可靠性。我们观察到,虽然在整个数据流形上,共享类的偏移并不总是小于私有类的偏移,但在局部区域通常成立。具体而言,在共享类簇的局部邻域内,私有类样本的语义偏移始终更大。这一观察结果可以表述为局部空间结构。受此启发,我们开发理论,使用掩码 OT [18] 来表征局部空间结构,这在局部相关性表征和几何可解释性方面具有显著优势。然后,我们提出了一种新颖的局部感知私有类识别方法,并在理论上确保了该方法在区分共享类和私有类样本方面的有效性。利用这种方法,我们推导出一个基于 OT 的可靠模型(ReOT),用于实际应用中的可靠迁移。此外,我们为具有异构标签空间的 DA 场景中的目标风险提供了泛化上界,并表明 ReOT 显著降低了这一界限,表明其在解决极端标签偏移 DA 方面的效率。 我们的贡献总结如下: * 提出了一种基于传输质量评分函数的局部感知私有类识别方法。它通过 MOT 的局部传输属性和距离相关不等式有效捕捉数据的复杂流形结构。MOT 的属性使我们的方法能够减轻跨域类条件差异,因此被用于实际知识迁移。 * 所提出识别方法的有效性在理论上得到了证明,突出了评分函数区分共享类和私有类样本的强大能力。这进一步意味着所提出的私有类识别方法的可靠性,即在现实条件下有效识别私有类样本的能力。 * 提出了一种由理论引导的 ReOT 方法,利用局部感知识别。ReOT 在最小化分类风险的同时,利用 MOT 学习分离的簇结构,避免类间不匹配,并确保类内可靠迁移。此外,我们给出了极端标签偏移场景的泛化上界,表明 ReOT 能有效最小化这一界限。 * 在几种基准图像数据集上进行了大量实验,包括 OSDA 和 PDA 设置,以验证 ReOT 的经验有效性。结果表明,ReOT 通常优于最先进的方法,展示了学习模型的稳定和卓越性能。 本文其余部分组织如下。在第 2 节中,我们简要回顾了开集域自适应、部分域自适应和基于 OT 的域自适应方法。在第 3 节中,我们提出了局部感知私有类识别方法和 ReOT 方法,随后提供了泛化误差分析,以展示 ReOT 在解决极端标签偏移 DA 方面的效率。第 4 节展示了标准 OSDA/PDA 设置下的广泛实验和分析。最后,第 5 节总结了本文。 ## 2 相关工作 在本节中,简要回顾了关于 OSDA、PDA 和基于 OT 的 DA 方法的几项相关工作。 ### 2.1 开集域自适应 OSDA 解决了一个现实挑战,即目标领域可能包含私有类。由于源领域缺乏私有类,源预训练模型难以正确识别目标样本。Saito 等人 [7] 提出了用于实际应用的 OSDA 设置,其中私有类样本仅出现在目标领域。最近的工作通常遵循识别私有类样本然后对齐跨域共享分布的流程。Liu 等人 [13] 提出了分离以对(STA),训练一个二元分类器来分离共享和私有样本,并通过对抗学习实施域对齐。Fang 等人 [19] 为开集域自适应提供了理论界限,并提出了一种名为带有开放差异的分布对齐(DAOD)的理论引导方法。Bucci 等人 [8] 关注图像旋转对开集域自适应的有效性,并提出了基于旋转的开集(ROS),利用旋转不变性作为度量来识别私有类样本。Jang 等人 [20] 提出了未知感知的域对抗学习(UADAL),以对齐源和目标共享分布,同时隔离目标私有分布。渐进图学习(PGL)[21] 和流形正则化联合转移(MRJT)[17] 本质上设置经验阈值,为目标领域中的置信样本分配伪标签。Huang 等人 [22] 提出了一种基于相关性度量的图框架,采用 Hilbert-Schmidt 独立性准则来表征未知类和已知类之间的分离。调整与对齐(ANNA)[9] 旨在通过基于因果性的去偏来改进两步流程。然而,其适用性仅限于 OSDA 场景,并未扩展到 PDA。相比之下,我们将 OSDA 和 PDA 视为极端标签偏移的情况,并解决这两种情况。 ### 2.2 部分域自适应 PDA 假设目标领域的标签空间是源领域的子集,因此,它需要识别源领域中的私有类,并
相似文章
鲁棒最优传输引导的生成式残差域适应:时间域偏移下的共享单车需求预测
本文提出了Gen-ROTDA,一种鲁棒最优传输引导的残差域适应框架,用于时间域偏移下的共享单车需求预测,与基线方法相比,在稳定性与准确性上均有提升,尤其适用于含噪目标数据。
一个基于最优传输理论的在线增量学习潜在空间培育方法
本文介绍了MMOT,一种基于最优传输理论的在线混合模型学习框架,通过动态质心更新和改进的类别相似性估计来应对分布漂移下的增量学习。该方法包含一种动态保持策略,用于缓解灾难性遗忘并在潜在空间中维持类别可分离性。
深度学习中来自私有训练数据的半监督知识迁移
OpenAI 提出了 PATE(Private Aggregation of Teacher Ensembles),这是一种隐私保护方法,通过在多个教师模型的噪声输出上训练学生模型,这些教师模型在互不相交的数据集上进行训练,在不暴露敏感训练数据的情况下提供强大的差分隐私保证。
迈向LLM的下一个前沿:私有数据训练——联邦微调的跨域基准
本文提出了一个在私有数据上对大型语言模型进行联邦微调的跨域基准,评估了LoRA、QLoRA和IA3策略在医疗和金融数据集上的表现。结果表明,联邦微调接近集中式训练的性能,并优于孤立学习,证明了在数据无法共享时通过联邦微调适配LLM的可行性。
击中移动目标:持续分布漂移下AI文本检测的测试时自适应
本文提出了一种基于半监督学习的测试时自适应方法,用于AI文本检测,能够适应来自新LLM、对抗性人工化和时间漂移的持续分布变化,性能优于最先进的监督式检测器。