加权对比学习的统一几何框架
摘要
本文提出了一个统一的几何框架,证明加权InfoNCE目标可以解释为距离几何问题,从而精确刻画了有监督和弱监督对比学习方法的最优嵌入,并揭示了这些嵌入何时在几何上可实现、退化或不一致。
arXiv:2605.13943v1 公告类型:新
摘要:对比学习(CL)旨在通过学习反映相似图结构的表示来保留样本之间的关系结构。然而,所得嵌入的几何结构仍不甚明了。本文证明加权InfoNCE目标可以解释为距离几何问题,其中加权方案指定了表示要实现的几何目标。这一观点精确刻画了多种有监督和弱监督目标的最优嵌入。在有监督分类中,SupCon和Soft SupCon(一种密集松弛方法,其中不同类别的样本对具有较小的非零相似度)都会将每个类内的样本压缩为单个原型。然而,平衡的SupCon恢复经典的规则单纯形几何,而类别不平衡则打破了这种对称性:SupCon根据类别大小产生非均匀的类间相似度,而Soft SupCon无论类别不平衡如何都能保持规则单纯形几何。在连续标签设置中,我们的框架揭示了一种不同的失败模式:y-Aware CL通常无法达到其熵最优,除非标签位于超球面上,这暴露了欧几里得标签权重与球面潜在相似度之间的不匹配。相比之下,几何一致的选择(如欧几里得-欧几里得加权或X-CLR)具有唯一的最优嵌入。我们的结果表明,加权方案的选择决定了对比学习在几何上是否可实现、退化或不一致,从而为设计对比目标提供了一个原则性框架。
查看缓存全文
缓存时间: 2026/05/15 06:25
# 加权对比学习的统一几何框架
来源: https://arxiv.org/html/2605.13943
Raphaël Vock, Edouard Duchesnay, Benoit Dufumier
GAIA Lab, NeuroSpin, CEA, CNRS, Université Paris-Saclay, Gif-sur-Yvette, France
{raphael.vock, edouard.duchesnay, benoit.dufumier}@cea.fr
###### 摘要
对比学习旨在通过学习反映相似性图的表示,保留样本之间的关系结构。然而,所得嵌入的几何结构仍知之甚少。本文证明,加权的 InfoNCE 目标可以解释为距离几何问题,其中加权方案指定了表示需要实现的几何结构。这一视角为若干监督和弱监督目标的最优嵌入提供了精确刻画。在监督分类中,SupCon 和 Soft SupCon(一种密集松弛,其中不同类别的样本对具有微小非零相似性)都会将每个类别内的样本坍缩到单个原型。然而,平衡的 SupCon 恢复了经典的单纯形几何结构,而类别不平衡会打破这种对称性:SupCon 产生依赖于类别大小的非均匀类间相似性,而 Soft SupCon 无论不平衡程度如何,都保持规则的单纯形几何结构。在连续标签设置中,我们的框架揭示了另一种失败模式:yy-Aware 对比学习通常无法达到其熵最优值,除非标签位于超球面上,这暴露了欧几里得标签权重与球形潜在相似性之间的不匹配。相比之下,几何一致的选择(如欧几里得-欧几里得加权或 X-CLR)允许唯一的最优嵌入。我们的结果表明,加权方案的选择决定了对比学习是否几何可实现、退化或不一致,为设计对比目标提供了一个原则性框架。
## 1 引言
定义成对相似性,诱导目标几何结构(中间),嵌入尝试实现该结构(底部)。左:密集权重(Soft SupCon)产生规则对称几何。中:稀疏权重(SupCon)产生退化解,类别不平衡扭曲原型几何。右:连续欧几里得标签相似性(yy-Aware)产生与余弦相似性不一致的几何结构,导致扭曲。)
对比学习在当前监督和自监督深度表示学习模型中起着关键作用。它通过几个成功的框架得到推广:用于自监督视觉表示学习的 SimCLR (Chen et al., 2020) 和 MoCo,用于监督分类的 SupCon (Khosla et al., 2020),以及用于视觉-语言表示学习的 CLIP (Radford et al., 2021)。后来,它被用于监督回归 (Zha et al., 2023; Barbano et al., 2023),处理连续目标,并应用于弱监督学习 (Dufumier et al., 2021; Schneider et al., 2023),当辅助信息(或元数据)在训练中可用时,作为约束表示的手段。尽管经验成功,对比目标所学表示的几何结构仍知之甚少。特别是,这些目标试图在嵌入空间中隐式实现什么样的结构,以及这种结构是否总能实现,尚不清楚。
从几何角度看,对比学习可被视为试图在低维空间中实现一组样本间的成对关系。这些关系由损失中使用的加权方案隐式指定,该方案编码了哪些样本应该相似或不相似的先验知识。这引出了一个基本问题:是否存在满足这些约束的表示?如果存在,它是否唯一?在这项工作中,我们表明加权对比学习可以解释为距离几何问题 (Liberti et al., 2014, DGP),其中加权方案定义了一个目标成对几何。在这一视角下,学习表示相当于找到该目标结构的几何实现。这一视角揭示了三种状态:有些目标定义了具有唯一解的可实现几何,另一些导致退化解,还有一些几何上不一致。
在监督分类中,我们证明 SupCon 及其软松弛都将每个类别内的样本坍缩,但在类别不平衡时有所不同:SupCon 产生依赖于类别大小的原型配置,而软变体保持规则的单纯形几何结构,与不平衡无关。在连续标签设置中,我们表明 yy-Aware 对比学习 (Dufumier et al., 2021) 通常是不一致的,而几何一致的公式如 X-CLR (Sobal et al., 2024) 允许可实现且唯一的最优解。除理论外,这一视角为设计对比目标提供了实用指导:将权重诱导的几何结构与嵌入空间的几何结构相匹配。我们还引入了评估收敛到预测最优点的指标,并通过实验验证了我们的结果。总之,我们做出以下贡献:
- • 我们表明加权 InfoNCE 定义了一个目标成对几何,最小化损失等价于求解一个 DGP。
- • 我们证明 SupCon 和 Soft SupCon(一种平滑松弛,其中类间样本对分配一个小但非零的相似性)都将每个类别坍缩到原型,但在不平衡时不同:SupCon 产生依赖于类别大小的原型几何,而 Soft SupCon 保持规则的单纯形几何。
- • 我们表明标签空间几何与潜在空间相似性必须匹配,最优解才能实现(例如如 X-CLR 中)。因此,我们证明 yy-Aware 对比学习通常无法达到其熵下界,因为它将欧几里得标签距离与球形潜在相似性结合。
- • 我们提供了一个新的损失下界,并提出了三个新的几何性指标,作为评估模型收敛和表示最优性的原则性方法。
## 2 相关工作
对比学习的理论研究主要从三个角度进行:信息论、概率和图论、以及度量学习。我们的方法本质上是一种几何方法,主要与对比学习的最后一种视角一致。
**互信息视角。** 早期现代对比目标被提出时,其动机是它们可被视为互信息最大化的可处理代理。对比预测编码 (van den Oord et al., 2018) 引入了 InfoNCE 损失,并展示了负采样如何在序列预测设置中产生一个可扩展的互信息下界。同时,Deep InfoMax 提出了全局和局部特征统计量之间的互信息最大化,用于无监督表示学习 (Hjelm et al., 2018),并为自监督学习开发了相关的多视角互信息目标 (Bachman et al., 2019)。后续工作通过偏差-方差权衡阐明了变分互信息界(包括 InfoNCE)的行为和局限性 (Poole et al., 2019)。然而,互信息并不能完全解释表示质量或几何结构:经验证据 (Tschannen et al., 2020) 表明下游表现高度依赖于架构和估计器引入的归纳偏差,而不仅仅是互信息估计。
**概率与图视角。** 另一研究路线将正样本建模为共享未观测语义因子(潜在类别)的样本,为从对比预训练到下游分类的泛化保证提供了依据 (Arora et al., 2019)。最近的分析从对潜在类别采样的强假设转向由增强驱动的正样本对,引入了增强图,其谱结构与对比目标相关 (HaoChen et al., 2021; HaoChen and Ma, 2022)。通过假设该增强图的语义聚类,在下游性能上获得了更强的结果。同时,基于“相似性图”(增强图的粗略近似),有人尝试统一对比和非对比方法 (Balestriero and LeCun, 2022)。另一补充视角来自 (Wang and Isola, 2020),它将对比学习解释为对齐项(将正样本拉近)和均匀性项(将表示均匀分布在超球面上)之间的权衡,并指出在数据有限时学习这种权衡的内在局限性。
**度量学习。** 在对比学习的互信息和概率/图视角之前,早期降维工作 (Hadsell et al., 2006) 提出了对比学习的几何公式,随后出现了成对和三元组损失,这些损失显式地在嵌入空间中强制几何结构。现代自监督 (Chen et al., 2020; He et al., 2020) 对比学习框架可以看作这种度量学习视角的可扩展延伸,隐式地在单位球面上塑造表示几何。在离散监督设置中,SupCon (Khosla et al., 2020) 使用类别标签定义正样本,扩展了自监督目标。更显式的几何刻画由 (Graf et al., 2021) 提供,它分析了 SupCon 的损失最小化配置,并在理想化条件下指出类别表示在超球面上趋近于规则的单纯形排列。在回归情况下,InfoNCE 目标的基于核的变体 (Dufumier et al., 2021; Barbano et al., 2023) 和基于排名的变体 (Zha et al., 2023) 已被推导,但据我们所知,它们最优解的几何刻画至今尚未给出。总体而言,尽管对比学习已从互信息和概率/图视角得到广泛研究,但对最优表示几何(包括存在性、唯一性及所得距离结构)的精确刻画仍然未被探索。
## 3 加权对比学习分析
### 3.1 加权对比学习损失的统一公式
#### 问题设置。
表示学习 (Bengio et al., 2013) 的目标是学习一个映射 \(f: \mathcal{X} \rightarrow \mathcal{Z}\),将输入数据 \(X = (x_i)_{i \in [1..n]} \in \mathcal{X}^n \subseteq \mathbb{R}^{n \times p}\) 映射为表示 \(Z = (z_i)_{i \in [1..n]} := f(X) \in \mathcal{Z}^n \subseteq \mathbb{R}^{n \times q}\),该表示为各种下游任务保留有用信息。
###### 定义 3.1 (w-InfoNCE 损失)。
给定相似性矩阵 \(W = (w_{ij}) \in \mathbb{R}^{n \times n}\),其中对 \(i \neq j\) 有 \(w_{ij} \ge 0\),以及 \(S = (s_{ij})\),其中 \(s_{ij} = s(z_i, z_j) = s(f(x_i), f(x_j))\),且 \(s: \mathbb{R}^q \times \mathbb{R}^q \to \mathbb{R}\) 是潜在空间中的某种相似性度量,则 **加权 InfoNCE 损失** 定义为:
\[
\mathcal{L}_{\mathrm{NCE}}^W := -\frac{1}{n} \sum_{i=1}^n \sum_{j \neq i} \frac{w_{ij}}{\sum_{k \neq i} w_{ik}} \log\left( \frac{\exp s_{ij}}{\sum_{k \neq i} \exp s_{ik}} \right)
\]
**备注。** 最初,SupCon、yy-Aware 和 X-CLR 都将 InfoNCE 损失定义为每个给定样本的多个增强版本。我们认为,通过将多个数据增强连接成单个矩阵 \(X\),可以从上述公式中恢复这种情形。让我们回顾几个著名框架对应的加权方案:
- • **SupCon** (Khosla et al., 2020): 对于带标签数据集 \((X, Y)\),其中 \(Y \in [1..C]^n\),\(C\) 为类别数,\(w_{ij} = 1\) 若 \(y_i = y_j\),否则为 0。
- • **y-Aware** (Dufumier et al., 2021): 对于弱标注数据集 \((X, Y)\),其中 \(Y \in \mathbb{R}^{n \times \ell}\) 为元数据,\(w_{ij} = \exp\left( -\|y_i - y_j\|^2 \right)\)。
- • **X-CLR** (Sobal et al., 2024): 对于图像-标题数据集 \((X, Y)\),其中 \(Y\) 是由预训练文本编码器编码的图像文本描述,\(w_{ij} = \exp(\cos(y_i, y_j) / \tau')\)。
在以上每种情况下,潜在空间中的相似性由余弦相似性度量:\(s_{ij} = \cos(z_i, z_j) / \tau\),其中 \(\tau\) 是温度超参数。
###### 假设 3.2 (\(S\) 和 \(W\) 的对称性)。
相似性函数 \(s\) 和相似性矩阵 \(W\) 是对称的,因此对所有 \(i, j \in [1..n]\) 有 \(s_{ij} = s_{ji}\) 和 \(w_{ij} = w_{ji}\)。
我们将分析分为两部分。首先,我们研究 **软加权** 状态,其中 \(W\) 严格正 (§3.2–3.6)。然后,我们转向 **硬或稀疏** 状态,其中 \(W\) 可能包含零 (§3.7–3.8)。
### 3.2 熵下界
在严格正性假设下,我们可以陈述 w-InfoNCE 损失的熵下界(证明见附录 A):
###### 定理 3.3 (w-InfoNCE 的熵下界)。
在假设 3.2 下,并假设对 \(i \neq j\) 有 \(w_{ij} > 0\),将加权 InfoNCE 损失 \(\mathcal{L}_{\mathrm{NCE}}^W\) 视为对称相似性矩阵空间上 \(S = (s_{ij})\) 的函数,则全局最小值恰好在以下条件时达到:
\[
s_{ij}^* = \log(w_{ij}) + c \quad \text{对于 } i \neq j
\]
其中 \(c \in \mathbb{R}\) 为某常数。此外,该最小值等于:
\[
\min_S \mathcal{L}_{\mathrm{NCE}}^W = -\frac{1}{n} \sum_{i \neq j} \frac{w_{ij}}{\sum_{k \neq i} w_{ik}} \log\left( \frac{w_{ij}}{\sum_{k \neq i} w_{ik}} \right).
\]相似文章
跨多层级抽象的图表示学习统一视角
本文提出了一种统一的对比学习框架,用于跨多个抽象层级(节点、邻近性、簇、图)学习图表示,并引入了一种无需参数的自适应加权机制,能够自适应地为相似度分数分配权重,在分类、聚类和链接预测等下游任务上优于现有最先进方法。
学习一致性表征:一种拓扑可解释性方法
本文介绍了一致性(coherence)这一几何约束,受大脑中网格细胞和头朝向细胞的启发。一致性确保特征响应数据流形上的几何连通区域,从而提升可解释性;作者提出了一个可微分的目标函数(Coh),并在合成数据、旋转MNIST和BERT词元嵌入上进行了验证。
几何冲突:解释并控制大模型持续后训练中的遗忘
本研究探讨了任务几何如何影响大模型的持续后训练,识别出“几何冲突”是导致遗忘的原因,也是控制更新整合的机制。作者提出了一种无需数据的方法——几何冲突 Wasserstein 合并(GCWM),该方法在各种规模的模型中均能提升保留率和性能。
使用学习锚点和白化内积改进相对表示
本文提出通过学习鲁棒的语义锚点并使用几何感知相似度度量来改进相对表示,使得不同架构的独立训练模型之间能够实现近乎无损的信息传输和稳定的零样本通信。
当Softmax在顶部失败时:InfoNCE的极值校正
该论文指出了基于softmax的InfoNCE损失与现代对比学习中的归一化嵌入设置之间的不一致性。它提出了WEINCE,一种简单的修改,利用极值理论将softmax logits与端点短缺校正相结合,在视觉基准测试中取得了持续的改进。