探索双元元学习以增强开放集场景下的域泛化

arXiv cs.LG 论文

摘要

提出了一种名为MEDIC的新型元学习策略,用于开放集域泛化,该策略通过域和类别划分间的隐式梯度匹配来实现更优的边界。实验表明其性能达到最先进水平。

arXiv:2606.23758v1 Announce Type: new 摘要:域泛化从多个源域学习以推广到未见的目标域。然而,它常常忽略了源域和目标域之间标签不匹配的现实情况。因此,提出了开放集域泛化以识别未见域中的未见类别。一种简单的方法是训练一对多分类器来分离每个类别并将异常值检测为未知。然而,少数正样本和大量负样本之间的不平衡使决策边界偏向正样本,导致模型过度拒绝分布外数据,甚至包括来自未见域的已知类别。在本文中,我们提出了一种名为双元元学习与联合域类匹配(MEDIC)的新型元学习策略,该策略同时考虑跨域和跨类任务划分的隐式梯度匹配,以找到域和类别均平衡的最优边界。实验结果表明,MEDIC不仅在开放集场景中优于先前的方法,而且保持了具有竞争力的封闭集泛化能力。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:48

# 探索二元元学习以增强开集场景下的域泛化 来源:https://arxiv.org/html/2606.23758 Xiran Wang, Jian Zhang, Lei Qi, Yang Gao, Yinghuan Shi 通讯作者为 Yinghuan Shi。Xiran Wang、Jian Zhang、Gao Yang 和 Yinghuan Shi 就职于南京大学计算机软件新技术国家重点实验室。Lei Qi 就职于东南大学计算机科学与工程学院。本研究得到国家自然科学基金项目 (62536005, 62192783, 62506162)、江苏省科技项目 (BF2025061, BK20251241)、教育部基础与交叉学科突破计划 (JYB2025XDXM118)、“111 中心” (B26023) 以及中央高校基本科研业务费专项资金 (KG202508) 资助。 ###### 摘要 域泛化通过从多个源域学习,以泛化到未见过的目标域。然而,它常常忽略了源域与目标域之间标签不匹配的现实情况。开集域泛化应运而生,用于识别未见域中的未见类别。一种简单的方法是训练一对多分类器来区分每个类别,并将异常点检测为未知。然而,少量正样本与大量负样本之间的不平衡使得决策边界偏向正样本,导致模型过度拒绝分布外数据,即使是来自未见域中的已知类别也是如此。在本文中,我们提出了一种新颖的元学习策略,称为二元元学习与域-类联合匹配 (MEDIC),该策略同时考虑跨域和跨类任务划分的隐式梯度匹配,以找到对域和类别都平衡的最优边界。实验结果表明,MEDIC 不仅在开集场景中优于先前的方法,而且保持了具有竞争力的闭集泛化能力。我们的代码可在此链接 (https://github.com/zzwdx/MEDIC-plus) 获取。 ## I. 引言 深度神经网络在广泛的计算机视觉任务中取得了巨大成功,通常假设训练和测试样本来自相同的数据分布和标签空间。然而,现实世界的应用场景常常引入不可预测性,当上述约束不满足时,模型可能面临性能下降的风险 [48 (https://arxiv.org/html/2606.23758#bib.bib6)]。域泛化 [87 (https://arxiv.org/html/2606.23758#bib.bib12)] 随后被提出作为一种更现实的设置,以处理数据分布偏移,即利用多个源域获得一个具有泛化能力的模型,该模型可以直接应用于任意未见过的目标域。当前大多数域泛化研究 [46 (https://arxiv.org/html/2606.23758#bib.bib2),47 (https://arxiv.org/html/2606.23758#bib.bib17),99 (https://arxiv.org/html/2606.23758#bib.bib7),32 (https://arxiv.org/html/2606.23758#bib.bib103)] 都基于闭集识别的假设,*即*,源域的类别与目标域的类别一致。然而,在实际应用中,部署的模型常常会遇到一些在训练阶段从未见过的新类别 [74 (https://arxiv.org/html/2606.23758#bib.bib18)]。例如,在医学影像中,某些疾病非常罕见 [26 (https://arxiv.org/html/2606.23758#bib.bib107)],获取其训练样本是不现实的。在闭集分类中,对象被强制分配到已知类别中,这给模型的鲁棒性和安全性带来了潜在风险。为了缓解这一问题,探索一种更实用的设置称为开集域泛化 (OSDG) 至关重要,其目标是在保持已知类别原始分类精度的同时,识别未知类别。 参见图注<br>图 1:开集域泛化中*一对多*分类器决策边界变化的示例。 在开集域泛化 [77 (https://arxiv.org/html/2606.23758#bib.bib4),38 (https://arxiv.org/html/2606.23758#bib.bib23)] 中,关键在于同时处理域偏移和类别偏移。然而,传统的开集识别模型不易应用于域泛化任务,因为它们倾向于生成有偏的决策边界,*即*,仅对训练数据建模而忽略了分布外样本 [29 (https://arxiv.org/html/2606.23758#bib.bib38),82 (https://arxiv.org/html/2606.23758#bib.bib36)]。例如,多二元分类器 [73 (https://arxiv.org/html/2606.23758#bib.bib1),53 (https://arxiv.org/html/2606.23758#bib.bib24)] 由多个一对多二元分类器组成,为每个已知类别定义一个决策边界。如果某个样本被所有子分类器判定为负类,则认为其属于未知类别的概率很高。如图 1 (https://arxiv.org/html/2606.23758#S1.F1) 所示,正样本 (*即*,仅来自一个对应类别) 有限的数分布和负样本 (*即*,来自所有其他类别) 更多样化的分布,会增加将输入预测为正类而非负类的风险。这导致决策边界不对称地向正样本偏移,可能将所有分布外样本都拒绝为未知,并在未见过的目标域中错误分类已知类别。 为了建立跨域和跨类别平衡的决策边界,我们转向元学习 [35 (https://arxiv.org/html/2606.23758#bib.bib71)],这是一种简单而有效的处理域偏移的方法。先前基于元学习的域泛化工作 [46 (https://arxiv.org/html/2606.23758#bib.bib2),76 (https://arxiv.org/html/2606.23758#bib.bib51)] 通过匹配来自不同域的任务的梯度,寻求域间的最优平衡。这种域级元学习可以减轻对特定域表现出过度偏见的风险。如图 2 (https://arxiv.org/html/2606.23758#S1.F2) 所示,其原理是:如果梯度之间的夹角较小,意味着优化一个任务不会干扰其他任务,那么通过优化它们的组合梯度就有可能实现双赢。相反,梯度之间的夹角大则表明目标冲突,更新一个任务可能会对另一个任务的优化过程产生不利影响。 参见图注<br>图 2:先前研究 [76 (https://arxiv.org/html/2606.23758#bib.bib51)] 已经证明,两个任务梯度之间的大夹角会在优化中引入矛盾。 我们提出以这种平衡的方式学习正负样本,将决策边界置于它们的中间区域,从而实现目标域中已知类别和未知类别之间更合理的分离。具体来说,我们引入了一种新颖的元学习策略,称为*二元元学习与域-类联合匹配 (MEDIC)*。我们不是简单地为跨域或跨类元学习添加额外的迭代,而是进一步实现域和类之间梯度的同时匹配。对于从不同域中选择的任务,我们还在类别层面进行拆分和重组,以构建跨类对。通过匹配这些重组任务的梯度,我们期望模型不仅能很好地跨域泛化,还能对类别间关系有更精确的理解,这对闭集泛化和开集识别都有利。本文是我们原始工作 [89 (https://arxiv.org/html/2606.23758#bib.bib75)] 的扩展,从最初的见解发展成一个带有配套理论和实验的通用框架。 - •我们研究了用于开集域泛化的跨类梯度匹配。该方法从特例 (*即*,内部循环两步) 引入到通用形式 (*即*,内部循环多步),并集成了一个针对困难类别对的集成任务调度策略。 - •与原始证明 [61 (https://arxiv.org/html/2606.23758#bib.bib76)][76 (https://arxiv.org/html/2606.23758#bib.bib51)] 相比,我们提供了更精确的逐步骤梯度匹配理论分析,消除了它们对数学期望的依赖。我们的策略可以用更少的步骤实现接近最大值的任务级梯度匹配。 - •大量实验表明,我们的方法不仅在开集场景中优于多种最先进方法,而且在传统域泛化设置中也保持了显著的准确性。 ## II. 相关工作 ### II-A. 域泛化 域泛化 (DG) 旨在利用多个源域训练一个模型,使其能够直接泛化到未见的目标域,无需额外的再训练过程。现有方法主要集中在三个方向:(i) **特征表示**,通过域对抗学习 [49 (https://arxiv.org/html/2606.23758#bib.bib15),23 (https://arxiv.org/html/2606.23758#bib.bib61),78 (https://arxiv.org/html/2606.23758#bib.bib79),15 (https://arxiv.org/html/2606.23758#bib.bib122)]、不变风险最小化 [4 (https://arxiv.org/html/2606.23758#bib.bib56),2 (https://arxiv.org/html/2606.23758#bib.bib77)] 或基于因果关系的特征解耦 [12 (https://arxiv.org/html/2606.23758#bib.bib40),56 (https://arxiv.org/html/2606.23758#bib.bib69)] 等技术学习域不变特征。(ii) **数据增强**,通过域迁移、混合或傅里叶变换 [99 (https://arxiv.org/html/2606.23758#bib.bib7),91 (https://arxiv.org/html/2606.23758#bib.bib58),92 (https://arxiv.org/html/2606.23758#bib.bib78),28 (https://arxiv.org/html/2606.23758#bib.bib74)]、对抗生成 [50 (https://arxiv.org/html/2606.23758#bib.bib8),98 (https://arxiv.org/html/2606.23758#bib.bib45)] 或随机噪声注入 [51 (https://arxiv.org/html/2606.23758#bib.bib10),90 (https://arxiv.org/html/2606.23758#bib.bib80)] 来增强训练多样性。(iii) **学习策略**,应用元学习 [96 (https://arxiv.org/html/2606.23758#bib.bib49),18 (https://arxiv.org/html/2606.23758#bib.bib14),6 (https://arxiv.org/html/2606.23758#bib.bib46)]、集成学习 [100 (https://arxiv.org/html/2606.23758#bib.bib48),10 (https://arxiv.org/html/2606.23758#bib.bib47),5 (https://arxiv.org/html/2606.23758#bib.bib81),84 (https://arxiv.org/html/2606.23758#bib.bib123)] 或正则化 [36 (https://arxiv.org/html/2606.23758#bib.bib50),86 (https://arxiv.org/html/2606.23758#bib.bib83),76 (https://arxiv.org/html/2606.23758#bib.bib51),57 (https://arxiv.org/html/2606.23758#bib.bib52)],其中一些可以通过元学习高效实现。 表 I:不同设置下目标域的对比。 | 问题设置 | 数据分布 | 标签空间 | 参与训练 |
|---|---|---|---|---|
| 域适应 [88 (https://arxiv.org/html/2606.23758#bib.bib27)] | \(\mathcal{Q}\) | \(\mathcal{C}\) | ✓ |
| 域泛化 [87 (https://arxiv.org/html/2606.23758#bib.bib12)] | \(\mathcal{Q}\) | \(\mathcal{C}\) | × |
| 开集识别 [25 (https://arxiv.org/html/2606.23758#bib.bib19)] | \(\mathcal{P}\) | \(\mathcal{C} \cup \mathcal{U}\) | × |
| 开集域泛化 [77 (https://arxiv.org/html/2606.23758#bib.bib4)] | \(\mathcal{Q}\) | \(\mathcal{C} \cup \mathcal{U}\) | × |
- 1 \(\mathcal{P}\) 和 \(\mathcal{C}\) 是源域的数据分布和标签空间。
- 2 \(\mathcal{Q}\) 是未见数据分布,且 \(\mathcal{C} \cap \mathcal{U} = \varnothing\)。

### II-B. 开集识别 开集识别 (OSR) 侧重于检测训练集中未包含的新颖类别。根据是否使用额外数据,现有方法可分为两类。(i) **人工类别**。一些方法 [17 (https://arxiv.org/html/2606.23758#bib.bib26),33 (https://arxiv.org/html/2606.23758#bib.bib28)] 通过辅助类别增强训练数据,以提高已知类别间的区分度,但其有效性高度依赖于这些样本的质量。另一些方法 [24 (https://arxiv.org/html/2606.23758#bib.bib30),59 (https://arxiv.org/html/2606.23758#bib.bib31)] 提出使用生成模型来猜测未知类样本,然而生成的图像通常质量低下,远离真实场景,在复杂数据集上效果不佳 [40 (https://arxiv.org/html/2606.23758#bib.bib67)]。(ii) **判别模型**。OpenMax [8 (https://arxiv.org/html/2606.23758#bib.bib32)] 替换了 softmax 层,并利用 EVT [80 (https://arxiv.org/html/2606.23758#bib.bib33)] 估计未知概率。自监督方法 [62 (https://arxiv.org/html/2606.23758#bib.bib34),94 (https://arxiv.org/html/2606.23758#bib.bib35),95 (https://arxiv.org/html/2606.23758#bib.bib84)] 利用重构误差,因为它们认为已知类样本通常比未知类样本重构得更准确。度量学习 [14 (https://arxiv.org/html/2606.23758#bib.bib37),29 (https://arxiv.org/html/2606.23758#bib.bib38),54 (https://arxiv.org/html/2606.23758#bib.bib85)] 也被广泛用于增强特征判别性。然而,这些方法常常将所有分布外样本错误分类为未知,限制了它们在域泛化中的直接应用。

### II-C. 元学习 元学习,也称为学习如何学习 [83 (https://arxiv.org/html/2606.23758#bib.bib87),3 (https://arxiv.org/html/2606.23758#bib.bib89)],旨在通过寻找一个可以通过最少更新快速适应的初始化,使模型具备跨任务泛化的能力。模型无关元学习 (MAML) [20 (https://arxiv.org/html/2606.23758#bib.bib88)] 和一阶元学习 (Reptile) [61 (https://arxiv.org/html/2606.23758#bib.bib76)] 将模型学习过程分为内循环和外循环。内循环用于任务特定适应,而外循环为内循环中的任务寻找全局最优初始化。在域泛化中,元学习已被应用于平衡不同域的优化 [46 (https://arxiv.org/html/2606.23758#bib.bib2),6 (https://arxiv.org/html/2606.23758#bib.bib46),76 (https://arxiv.org/html/2606.23758#bib.bib51)]。MLDG [46 (https://arxiv.org/html/2606.23758#bib.bib2)] 通过元训练和元测试划分模拟域偏移。Fish [76 (https://arxiv.org/html/2606.23758#bib.bib51)] 引入一阶策略来降低计算成本。与这些域级策略不同,我们的方法进一步在类别层面采样任务,以防止有偏的决策边界,并更好地在目标域中区分已知类别和未知类别。

### II-D. 开集域泛化 开集域泛化 (OSDG),总结于表 I (https://arxiv.org/html/2606.23758#S2.T1),旨在同时解决域偏移和类别偏移。先前的研究主要集中在训练高判别性模型 [77 (https://arxiv.org/html/2606.23758#bib.bib4),38 (https://arxiv.org/html/2606.23758#bib.bib23),93 (https://arxiv.org/html/2606.23758#bib.bib54)] 或在测试时拒绝未知类别 [13 (https://arxiv.org/html/2606.23758#bib.bib86)]。先前方法的一个关键局限是它们分别处理两种偏移。例如,DAML [77 (https://arxiv.org/html/2606.23758#bib.bib4)] 基于域增强和元学习,主要针对源域之间的数据偏移。CrossMatch [101 (https://arxiv.org/html/2606.23758#bib.bib53)] 在闭集分类器和多二元分类器之间采用一致性正则化,而未考虑域偏移。我们的目标是在一个统一的框架内处理这两种偏移。

相似文章

MedAction:迈向主动式多轮临床诊断大语言模型

arXiv cs.CL

本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL

MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。