TILT: 协变量偏移下的目标诱导损失倾斜

arXiv cs.LG 2026/05/15 04:00 论文

摘要

TILT提出了一种新颖的目标函数，用于在协变量偏移下进行无监督域适应，该函数对未标记目标数据上的辅助组件施加惩罚，隐式实现了具有有界估计量的自定位重要性加权。理论保证和在偏移CIFAR-100上的实验表明，目标域性能优于基线方法。

arXiv:2605.14280v1 公告类型：新论文摘要：我们引入并分析了目标诱导损失倾斜（TILT），用于协变量偏移下的无监督域适应。该方法基于一种新颖的目标函数，将源预测器分解为 $f+b$，在有标签的源数据上拟合 $f+b$，同时对无标签目标输入上的辅助组件 $b$ 施加惩罚。得到的拟合结果 $f$ 被用作最终的目标预测器。在总体层面上，我们证明这种目标侧的惩罚隐式地引入了总体层面的相对重要性加权，但该加权依赖于一个自定位到当前误差的估计量 $b^*_f$，并且对于任何源-目标对（即使支持集不重叠）都保持一致有界。我们证明了关于超额风险的一般有限样本预言不等式，并利用它为使用稀疏ReLU网络的训练提供了端到端的保证。在受控回归问题和偏移CIFAR-100蒸馏上的实验表明，TILT在目标域性能上优于仅源训练、精确重要性加权和相对密度比基线方法，且对正则化参数具有稳定的依赖性。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:29

# 1 引言 来源: https://arxiv.org/html/2605.14280 \\PaperBibliographyStyle alpha\\PaperBibliographyreferences\\PaperBibliographynew\_refs\\PaperTitleTILT: 协变量偏移下的目标诱导损失倾斜\\PaperAuthorsNeurIPSKakei Yamamoto 信息与决策系统实验室 统计与数据科学中心 电子工程与计算机科学系, 麻省理工学院 kakei@mit\.edu&Martin J\. Wainwright 信息与决策系统实验室 统计与数据科学中心 数学系与电子工程与计算机科学系, 麻省理工学院 mjwain@mit\.edu\\PaperAuthorsArxiv 信息与决策系统实验室 统计与数据科学中心 电子工程与计算机科学系†,⋆ 和数学系⋆ 麻省理工学院\\PaperAbstract 我们提出并分析了用于协变量偏移下无监督域适应的目标诱导损失倾斜 (TILT) 方法。该方法基于一个新颖的损失函数，该函数将源预测器分解为 `f+b`，在带标签的源数据上拟合 `f+b`，同时惩罚未标记目标输入上的辅助分量 `b`。所得的拟合 `f` 被部署为最终的目标预测器。在总体层面上，我们证明了这种目标侧惩罚隐式地在总体层面引入了相对重要性加权，但这是基于一个 **自我定位** 于当前误差的估计量 `b_f^*`，并且对于任何源-目标对 (即使支持集不重叠) 都 **一致有界**。我们证明了关于超额风险的一般有限样本 Oracle 不等式，并利用它给出了使用稀疏 ReLU 网络训练的端到端保证。在受控回归问题和偏移 CIFAR-100 蒸馏上的实验表明，与仅源训练、精确重要性加权和相对密度比基线相比，TILT 提高了目标域性能，并且对正则化参数具有稳定的依赖性。\\MakePaperTitle 许多预测系统在来自源域的带标签数据上训练，然后部署在来自不同目标域的输入上。这种不匹配出现在诸如跨患者群体的医学诊断、跨采集环境的动物分类以及跨地理设置的贫困预测等应用中 (例如，参见综述论文 (koh2021wilds) 及其参考文献)。我们在协变量偏移下研究这个问题：源和目标协变量分布不同，但响应的条件分布给定协变量是共享的 (shimodaira2000improving;sugiyama2012density)。在这种设置下，普通的源经验风险最小化不一定针对相关的预测准则，因为它根据源边际而不是目标边际对误差进行加权。标准的修正方法是重要性加权。如果用 `p` 和 `q` 分别表示源和目标协变量密度，则目标风险可以表示为按照密度比 `q(x)/p(x)` 加权的源期望。这个恒等式是精确的，但直接使用它有两个缺点。首先，该比率可能高度可变或无界，这会增加统计方差并可能破坏优化的稳定性。其次，该比率通常是未知的，必须从未标记的源和目标样本中估计。直接的密度比方法如 KMM、KLIEP 和 LSIF 避免了分别估计 `p` 和 `q`，但仍然需要一个显式的权重估计阶段 (huang2007correcting;gretton2008covariate;sugiyama2008direct;kanamori2009least)。相对密度比方法如 RuLSIF 将普通比率替换为正则化比率以提高稳定性 (yamada2011relative)，而一步方法则联合优化预测和加权分量 (zhang2020onestep)。这些方法在算法上有所不同，但它们仍然显式地基于权重。请参见第 1.1 节 (https://arxiv.org/html/2605.14280#S1.SS1) 以获取对此以及其他相关工作的更详细讨论。在本文中，我们提出了一种称为 **目标诱导损失倾斜** (TILT) 的新方法，这是一种用于协变量偏移适应的一步方法，它从算法中移除了密度比估计。TILT 方法将源预测器分解为 `f+b`。和 `f+b` 在带标签的源数据上拟合，而辅助分量 `b` 在未标记的目标协变量上被惩罚；部署的预测器是 `f`。`b` 的作用是吸收对拟合源分布有用的结构，但受限于这种辅助结构在目标协变量分布上被抑制。因此，目标样本仅通过辅助分量的惩罚进入，而不是通过估计的密度比或目标标签。TILT 方法的一个关键技术特性是，在轮廓化掉辅助分量之后，这种目标侧惩罚会诱导出一个相对加权准则。对于最小二乘总体目标，关于 `b` 优化会得到一个精确的 `λ`-相对加权目标超额风险。对于给定的预测器 `f`，相应的最优偏移由 `b_f^*(x) = -p(x)/(p(x) + λ q(x)) {f(x) - f^*(x)}` 给出，其中 `f^*(x) = E[Y | X = x]` 是最优预测器。这个表达式涉及 **两项的乘积**：有界因子 `p(x)/(p(x) + λ q(x))`，而不是可能无界的密度比 `q(x)/p(x)`，以及当前的预测误差 `f - f^*`。因此，TILT 方法具有 **自定位属性**：随着主预测器 `f` 的改进，辅助任务变得更容易，并且所得过程实现了针对 `f^*` 的协变量偏移校正，而无需显式估计 `q/p`。**贡献**：让我们总结一下我们的贡献。首先，我们引入了 TILT，这是一种用于协变量偏移适应的一步过程，它在带标签的源数据上拟合加法预测器 `f+b`，惩罚未标记目标协变量上的辅助分量 `b`，并且仅部署 `f`。与重要性加权方法不同，TILT 从不估计、裁剪或输出密度比。其次，我们为该方法提供了严格的理论基础。我们的第一个理论结果 (第 2.1 节 (https://arxiv.org/html/2605.14280#S2.SS1)) 表明，这种简单的目标侧惩罚具有吸引人的总体层面特性。轮廓化掉辅助分量 `b` 会产生一个 `λ`-相对加权目标超额风险。此外，最优偏移 `b_f^*` 对于任意源-目标对都是一致有界的，并且定位到当前的预测误差。因此，TILT 实现了协变量偏移校正，而无需密度比估计，并且以自我定位到误差 `f - f^*` 的方式进行。此外，我们为实践中使用的基于数据的过程提供了两个有限样本保证：定理 2 (https://arxiv.org/html/2605.14280#Thmtheorem2) 给出了一个通用的 Oracle 不等式，将近似误差与源和目标估计项分离开来；第 3 节 (https://arxiv.org/html/2605.14280#S3) 将这个通用结果特例化到稀疏 ReLU 网络，以获得端到端的非参数速率。我们的界明确揭示了正则化参数 `λ` 如何在目标相关性和估计方差之间进行权衡，以及各种光滑性条件如何影响速率。在实证方面，我们通过一系列数值研究评估了 TILT。在已知源和目标密度的受控回归实验中，我们与源 ERM 以及了解 `(p,q)` 对的知识的 **Oracle 形式** 的重要性加权和相对密度比进行了比较。我们构建了一个实验，表明 TILT 在协变量偏移严重性方面达到了 **极小化最优** 速率。最后，在偏移的 CIFAR-100 蒸馏中，我们将相同的想法扩展到辅助 logits，并表明在图像级别的协变量偏移下，目标侧倾斜提高了目标性能，优于仅源训练和 KD 方法。**组织结构**：第 2 节 (https://arxiv.org/html/2605.14280#S2) 设置了协变量偏移问题并介绍了 TILT 目标。第 2.1 节 (https://arxiv.org/html/2605.14280#S2.SS1) 证明了总体重新加权恒等式，第 2.2 节 (https://arxiv.org/html/2605.14280#S2.SS2) 记录了蒸馏实验中使用的分类变体。第 3 节 (https://arxiv.org/html/2605.14280#S3) 给出了主要的有限样本和 ReLU 网络保证。第 4 节 (https://arxiv.org/html/2605.14280#S4) 在合成回归问题和偏移的 CIFAR-100 上评估了 TILT。 ### 1.1 相关工作 这里我们详细阐述与 TILT 方法相关的三项工作；由于篇幅限制，我们仅限于那些最直接相关的论文。**重要性加权**：协变量偏移的标准修正是重要性加权 (IW) 风险最小化 (shimodaira2000improving;sugiyama2012density)，它将目标风险重写为按 `w(x)=q(x)/p(x)` 加权的源期望。IW 方法的泛化界表明，难度取决于权重函数的大小和变异性 (cortes2010learning;MaPatWai23)。由于密度比通常是未知的，大量文献直接从无标签的源和目标样本中估计它，包括 KMM (huang2007correcting;gretton2008covariate)、KLIEP (sugiyama2008direct)、LSIF (kanamori2009least) 以及相关的凸风险公式 (nguyen2010estimating)。Zhang 等人 (zhang2020onestep) 将两阶段的重要性加权流程替换为预测器和权重的联合优化，但仍然显式地参数化并学习密度比。相对密度比方法如 RuLSIF 将普通比率替换为正则化变体，以便以偏差为代价提高稳定性 (yamada2011relative)。TILT 方法涉及一种相关形式的正则化，但 **不估计或不输出** 密度比：相对权重仅在辅助分量被优化掉后才出现，并且最优偏移 `b_f^*` 将其与估计量 `f` 耦合 (参见第 2.1 节 (https://arxiv.org/html/2605.14280#S2.SS1))。**域适应与分布鲁棒性**：更广泛的域适应工作寻求行为跨域稳定的表示或预测器。经典理论使用源误差和域之间的差异来界定目标误差 (ben2010theory)。核和矩匹配方法通过诸如 MMD 的量来控制分布差异 (gretton2012kernel)，而深度适应方法使用对抗损失、相关性匹配或残差转移来对齐特征或域 (例如，ganin2016domain;long2015learning;sun2016deep;long2016unsupervised)。不变和鲁棒预测方法，包括不变风险最小化、风险外推和锚点回归，则惩罚那些性能或残差在观察到的环境或锚点变量间变化的预测器 (arjovsky2019invariant;krueger2021out;rothenhausler2021anchor)。所有这些方法都基于与我们不同的观测模型：它们依赖于观察到的环境、锚点或多个域，这些揭示了分布如何变化。相比之下，TILT 过程仅需要带标签的源数据和未标记的目标协变量，目标协变量充当适应信号。**加法分解与残差转移**：加法共享-特定分解已用于域适应、多任务学习和表示学习中。特征增强方法引入了共享和域特定的特征副本 (daume2007frustratingly)；多任务模型将参数分解为共享和任务特定组件 (evgeniou2004regularized;jalali2010dirty)；域分离网络将表示拆分为共享和私有因子 (bousmalis2016domain)。残差转移方法通过为目标域学习额外的残差分量来适应源预测器 (kuzborskij2013stability;long2016unsupervised)，或者使用残差来减少师生估计中的偏差 (yamamoto2026residual)。TILT 方法也利用了加法分解，但具有相反的部署逻辑：允许辅助分量拟合源特定的残差结构，同时在目标输入上对其进行惩罚，并且在构建最终预测器时将其丢弃。通过设计，这种选择产生了一种隐式的协变量偏移校正，而不是共享-私有的架构偏差。 ## 2 问题与方法形式化描述 我们考虑无监督域适应问题，其中 `X ⊂ R^d` 是输入空间，`Y ⊂ R` 是输出空间。我们有一个源数据集 `{(xi, yi)}_{i=1}^n`，包含 `n` 个独立同分布于源分布 `P` (在 `X × Y` 上) 的带标签样本。此外，我们还可以访问一个目标数据集 `{x̃_j}_{j=1}^m`，包含 `m` 个独立同分布于目标分布 `Q` 的边缘分布 `Q_X` 的无标签样本。在协变量偏移设置下，输入的边际分布不同 (`P_X ≠ Q_X`)，但标签的条件分布保持不变：`P(Y | X) = Q(Y | X)`。 ### 2.1 TILT：目标诱导损失倾斜 我们首先描述针对实值输出 `y ∈` 并使用最小二乘损失的 TILT 过程。在此设置中，最优预测器由回归函数 `f^*(x) = E[Y | X = x]` 给出，估计量 `f` 的质量通过 `Q`-目标超额风险 `E_Q^2(f) = E_Q (Y - f(X̃))^2 - E_Q (Y - f^*(X̃))^2 ≡ E_Q (f(X̃) - f^*(X̃))^2` 来衡量 (1) 我们引入形如 `f(x) + b(x)` 的加法分解，其中 `f ∈ F` 是预测器，`b ∈ B` 是辅助函数。我们建议通过最小化以下联合经验目标来同时学习 `f` 和 `b`： TILT 目标：`L̂(f, b) ≔ 1/n Σ_{i=1}^n (f(x_i) - y_i + b(x_i))^2 + λ/m Σ_{j=1}^m b^2(x̃_j)`。(2) 我们联合最小化关于 `(f, b)` 的 `L̂`，并使用最小化器的 `f` 分量作为最终的 TILT 预测器。这里正则化参数 `λ > 0` 控制目标域上的偏差抑制强度。注意，目标 (2) 很简单，并且在函数值 `f(x_i)`, `b(x_i)` 和 `b(x̃_j)` 上是联合凸的。**理论基础：超额风险与最优偏移**：我们的第一个结果表明，TILT 目标 (2) 在无限样本量的总体水平上具有严格的理论依据。定义总体水平的 TILT 目标 `L̄(f, b) ≔ E[L̂(f, b)]`，其中期望是针对两者取均值的。

TILT: 协变量偏移下的目标诱导损失倾斜

相似文章

分布偏移下稳定自适应的损失平滑

Expectation Consistency Loss: 重新思考协变量偏移下的置信度校准

使用概念图在T2I扩散模型中的高效偏见缓解

击中移动目标：持续分布漂移下AI文本检测的测试时自适应

损失不足：对比表示学习中的采样条件与归纳偏置

提交意见反馈