RADAR:表征间的相对角度散度

arXiv cs.LG 论文

摘要

RADAR是一种基于几何的度量,通过分析表征的逐层角度与距离变化,并利用域内与跨域轨迹分布之间的KL散度,来估计基础模型中的跨领域可迁移性。

arXiv:2605.23028v1 Announce Type: new Abstract: 机器学习方法依赖于数据。然而,由于可用性限制、成本或领域专业知识的需求,收集合适的数据可能具有挑战性。扩展数据集以包含额外来源是对数据有限的常见回应,但这种做法并不总是能提升下游性能,有时甚至会导致性能下降,即所谓的负迁移。我们提出RADAR,一种简单且基于几何的度量,用于估计基础模型中的跨领域可迁移性。RADAR通过测量沿层间位移轨迹的角度对齐和距离的相对变化,以及比较域内和跨域动态的经验分布,来分析表征的逐层演化。我们假设领域可迁移性与这些轨迹分布之间的散度相关。我们在多种模态上评估该度量,包括使用文本嵌入模型的跨语言情感分类和使用基础视觉模型的跨域图像分类。在多个设置中,RADAR在多个视觉和文本基准上提供了与现有可迁移性度量相竞争的性能预测,特别是在领域过渡平滑或清晰分离的情况下表现尤为出色。我们的消融实验进一步表明,可迁移性估计的有效性取决于模型内部表征空间的几何结构,不同模态偏好不同的拓扑形式。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:58

# RADAR:跨表征的相对角度散度  
来源:https://arxiv.org/html/2605.23028  

Mateusz Nowak∗  
达特茅斯学院  
mateusz\.m\.nowak\.th@dartmouth\.edu  

Peter Chin  
达特茅斯学院  
peter\.chin@dartmouth\.edu  

###### 摘要  
机器学习方法依赖于数据。然而,由于可用性限制、成本或领域专业知识需求,收集合适的数据可能具有挑战性。用额外来源扩充数据集是对数据有限的常见回应,然而这种做法并不总能提升下游性能,有时甚至会导致性能损失,即负迁移。我们提出 RADAR,一个简单且基于几何的度量指标,用于估计基础模型中的跨域迁移性。RADAR 通过测量角度对齐和沿逐层位移轨迹的相对距离变化,并比较域内和跨域动态的经验分布,来分析表征的逐层结构化演化。我们假设域的迁移性与这些轨迹分布之间的散度相关。我们在多种模态上评估该指标,包括使用文本嵌入模型进行的跨语言情感分类以及使用视觉基础模型进行的跨域图像分类。在若干设置中,RADAR 在多个视觉和文本基准上相对于现有的迁移性度量指标展现出具有竞争力的预测性能,尤其在域过渡平滑或清晰分离时表现尤为突出。我们的消融实验进一步表明,迁移性估计的有效性取决于模型内部表征空间的几何结构,不同模态偏好不同的拓扑形式。  

## 1 引言  
在现代机器学习中,用辅助来源扩展训练数据集是应对数据限制的标准策略。然而,这种做法并不能保证提升下游性能,甚至可能导致负迁移。识别哪些源域能产生正迁移仍然是一项困难的任务,因为经验评估每个候选影响需要耗时的完整模型重训练。为了应对这一挑战,我们提出 RADAR(跨表征的相对角度散度),一个简单且基于几何的度量指标,旨在仅使用冻结特征高效估计基础模型中的跨域迁移性。与需要在目标数据集上预训练或仅评估单层静态输出的基线度量不同,RADAR 使用冻结的基础模型分析表征的动态层间结构化演化。我们在图1 (https://arxiv.org/html/2605.23028#S1.F1) 中提供了该指标的高层概述。该框架通过提取模型中间层特征表示,绘制逐层位移轨迹来度量散度。然后通过计算同域内样本之间以及不同域样本之间的相对距离变化和角度来表征这些轨迹。基于这些角度和相对距离,我们拟合高维高斯混合模型(GMMs)以建模域内和跨域动态的连续概率分布。最后,给定这两个分布,通过计算它们之间的对称 Kullback-Leibler(KL)散度来度量域之间的整体结构偏移。  

图1:RADAR 框架概览。RADAR 通过从预训练模型中提取逐层(ℓ)几何轨迹来识别用于迁移学习的最佳源数据。通过计算域内和跨域对的角(θ)及相对距离(d)密度的散度,它在不需要计算昂贵的微调的情况下高效地对辅助候选进行排序。  

我们在视觉模态(使用 CLIP[36 (https://arxiv.org/html/2605.23028#bib.bib1)] 和 DINOv3[38 (https://arxiv.org/html/2605.23028#bib.bib45)] 架构)和文本模态(使用 Qwen3-Embedding[48 (https://arxiv.org/html/2605.23028#bib.bib2)] 和 EmbeddingGemma[43 (https://arxiv.org/html/2605.23028#bib.bib42)])上评估 RADAR,基准数据集包括 DomainNet[35 (https://arxiv.org/html/2605.23028#bib.bib47)]、OfficeHome[42 (https://arxiv.org/html/2605.23028#bib.bib44)]、PACS[25 (https://arxiv.org/html/2605.23028#bib.bib43)](视觉模态)以及 AmazonReview[34 (https://arxiv.org/html/2605.23028#bib.bib46)]、EuroEval[34 (https://arxiv.org/html/2605.23028#bib.bib46)](文本模态),并将其与最先进的迁移性度量指标进行比较。我们表明,在十个配置中,RADAR 在七个中进入前三名,并在其中六个中取得了绝对最佳性能。此外,我们彻底评估了算法的设计选择——特别关注域子采样、密度估计以及替代的最优传输算法——展示了我们方法的整体鲁棒性。我们的核心贡献和发现总结如下:  
- • 动态、逐层结构化演化:我们提出 RADAR——一个基于几何的度量指标,评估不同域之间的动态表征偏移。通过测量这些动态连续分布之间的散度,我们有效地捕捉了平滑域过渡和清晰分离的域。  
- • 极具竞争力的预测性能:在文本和视觉模态上,RADAR 相对于已有基线(如 LEEP[32 (https://arxiv.org/html/2605.23028#bib.bib41)]、LogME[45 (https://arxiv.org/html/2605.23028#bib.bib39)]、NCE[41 (https://arxiv.org/html/2605.23028#bib.bib40)]、TransRate[13 (https://arxiv.org/html/2605.23028#bib.bib36)] 和 S-OTDD[33 (https://arxiv.org/html/2605.23028#bib.bib35)])持续排名最佳或次佳。  
- • 鲁棒且高效的估计:我们通过广泛的消融实验证明了方法的鲁棒性和高计算效率,重点关注超参数选择、密度估计技术、表征子采样以及替代的最优传输算法。最终,RADAR 提供了一个有竞争力的跨模态迁移性度量,能够可靠地预测各种视觉和文本基准上的迁移增益排序——尤其在域过渡平滑或清晰分离时——同时相对于经验性和最优传输的度量保持了计算效率。  

## 2 问题描述  
##### 域和共享标签空间。  
令 \(\mathcal{D} = \{\mathcal{D}_1, \ldots, \mathcal{D}_K\}\) 为一个包含 \(K\) 个域的集合,每个域包含带标签数据 \(\mathcal{D}_i = \{(x_j, y_j)\}_{j=1}^{N_i}\),这些数据来自特定域的联合分布 \(P_i(X, Y)\)。我们假设所有域共享一个共同的标签空间 \(\mathcal{Y}\),且每个类别在每个域中都有出现。其中一个域 \(\mathcal{D}_{\mathrm{tgt}} \in \mathcal{D}\) 被指定为*目标*;其余 \(K-1\) 个域构成*源*候选池 \(\mathcal{D}_{\mathrm{src}} = \mathcal{D} \setminus \{\mathcal{D}_{\mathrm{tgt}}\}\)。例如,假设我们有三个域 {真实图像, 绘画, 素描} 的数据集,我们想知道是否应该使用绘画和素描来提高在真实图像上的性能。  

##### 混合训练集。  
一个*混合*是子集 \(\mathcal{S} \subseteq \mathcal{D}_{\mathrm{src}}\);对应的混合数据集是其成员域的并集:  
\[
\mathcal{D}_{\mathrm{blend}}\left(\mathcal{S}\right) = \bigcup_{\mathcal{D}_i \in \mathcal{S}} \mathcal{D}_i.
\tag{1}
\]  
共有 \(2^{K-1}\) 种可能的混合。例如,如果我们的目标域是真实图像,我们应该训练 \(\{\{\}, \{\text{绘画}\}, \{\text{素描}\}, \{\text{素描, 绘画}\}\}\) 中的哪一种?给定混合 \(\mathcal{D}_{\mathrm{blend}}\left(\mathcal{S}\right)\),我们在目标数据和源混合的并集 \(\mathcal{D}_{\mathrm{tgt}} \cup \mathcal{D}_{\mathrm{blend}}(\mathcal{S})\) 上训练一个分类器,并在 \(\mathcal{D}_{\mathrm{tgt}}\) 上评估它。我们现在自然地将仅使用目标的基线评估为 \(\mathcal{S} = \varnothing\),得到 \(A(\varnothing) = \operatorname{acc}\bigl(f_{\mathcal{D}_{\mathrm{tgt}}}, \mathcal{D}_{\mathrm{tgt}}\bigr)\)。我们记录两个量作为真实值:  
\[
\begin{aligned}
A(\mathcal{S}) &= \operatorname{acc}\bigl(f_{\mathcal{D}_{\mathrm{tgt}} \cup \mathcal{D}_{\mathrm{blend}}\left(\mathcal{S}\right)}, \mathcal{D}_{\mathrm{tgt}}\bigr), \tag{2} \\[4pt]
\Delta(\mathcal{S}) &= A(\mathcal{S}) - A(\varnothing). \tag{3}
\end{aligned}
\]  
正的 \(\Delta(\mathcal{S})\) 表示混合源 \(\mathcal{S}\) 在仅使用目标数据训练的基础上有所改进;负值表示负迁移。  

##### 源选择问题。  
对每个子集 \(\mathcal{S}\) 计算 \(A(\mathcal{S})\) 需要 \(2^{K-1}\) 次完整训练,这在 \(K\) 较大时是不可行的。我们的目标是仅从*冻结特征*中预测 \(\Delta(\mathcal{S})\)——从而对混合配置进行排序——无需任何模型重训练。具体而言,我们寻找一个*混合相似度函数*:  
\[
\operatorname{dsim}\bigl(\mathcal{D}_{\mathrm{blend}}(\mathcal{S}), \mathcal{D}_{\mathrm{tgt}}\bigr) \in \mathbb{R}
\tag{4}
\]  
使得它在所有 \(2^{K-1}-1\) 个非空混合上的排序与 \(\Delta(\mathcal{S})\) 诱导的排序一致:  
\[
\operatorname{dsim}\!\bigl(\mathcal{D}_{\mathrm{blend}}(\mathcal{S}), \mathcal{D}_{\mathrm{tgt}}\bigr) < \operatorname{dsim}\!\bigl(\mathcal{D}_{\mathrm{blend}}(\mathcal{S}'), \mathcal{D}_{\mathrm{tgt}}\bigr) \implies \Delta(\mathcal{S}) > \Delta(\mathcal{S}').
\tag{5}
\]  
我们通过所有混合配置上与真实 \(\Delta\) 值的 Spearman 秩相关系数 \(\rho\) 来评估相似度函数的质量。  

## 3 跨表征的相对角度散度作为度量  
##### 特征提取。  
令 \(\Phi\) 表示一个预训练的基础模型,例如文本嵌入或视觉架构。对于从特定域 \(\mathcal{D}_d \in \mathcal{D}\) 中抽取的输入样本 \(x_i\),我们定义其在 \(\Phi\) 的层 \(l\) 处提取的中间特征表征为 \(\mathbf{h}^{(l)}(x_i) \in \mathbb{R}^{H_l}\),其中 \(H_l\) 是层 \(l\) 处表征的维度。  

图2:(a) 和 (b) 为跨越层 \(l\) 和 \(l+1\) 的位移向量几何三角形  

##### 角度和相对距离。  
给定两个域 \(\mathcal{D}_\mathrm{A}\) 和 \(\mathcal{D}_\mathrm{B}\),我们计算经验性的域内和跨域角度及距离分布。对于锚点样本 \(x \in \mathcal{D}_\mathrm{A}\)(标签为 \(y\)),我们抽取一个域内二次样本 \(x' \in \mathcal{D}_\mathrm{A} \setminus \{x\}\) 和一个跨域样本 \(x'' \in \mathcal{D}_\mathrm{B}\)。为了捕获域内动态,我们定义跨越层 \(l\) 和 \(l+1\) 的位移向量几何三角形(见图2 (https://arxiv.org/html/2605.23028#S3.F2)):  
\[
\begin{aligned}
\mathbf{v}_{\text{sep}}^{(l)}(x, x') &= \mathbf{h}^{(l)}(x') - \mathbf{h}^{(l)}(x), \tag{6} \\[2pt]
\mathbf{v}_{\text{detour}}^{(l)}(x, x') &= \mathbf{h}^{(l+1)}(x) - \mathbf{h}^{(l)}(x'), \tag{7} \\[2pt]
\mathbf{v}_{\text{traj}}^{(l)}(x) &= \mathbf{h}^{(l+1)}(x) - \mathbf{h}^{(l)}(x). \tag{8}
\end{aligned}
\]  
这个三元组建立了局部展宽——测量单个层上样本之间的空间分离 \(\mathbf{v}_{\text{sep}}\),以及如果用 \(x'\) 替换 \(x\) 再过渡到下一层所需的绕行 \(\mathbf{v}_{\text{detour}}\)。类似地,我们计算相应的跨域三元组以捕获域间散度:跨域分离 \(\mathbf{v}_{\text{sep}}^{(l)}(x, x'')\),跨域绕行 \(\mathbf{v}_{\text{detour}}^{(l)}(x, x'')\),以及锚点样本的直接轨迹 \(\mathbf{v}_{\text{traj}}^{(l)}(x)\)。  
为了量化层 \(l\) 处的结构偏移,我们使用余弦相似度计算分离向量和绕行向量之间的角度对齐 \(\theta^{(l)}\),以及相对距离 \(d^{(l)}\)。对于欧几里得空间中的域内对,这些由以下公式给出:  
\[
\begin{aligned}
\theta^{(l)}(x, x') &= \arccos\left(\frac{\mathbf{v}_{\text{sep}}^{(l)}(x, x') \cdot \mathbf{v}_{\text{detour}}^{(l)}(x, x')}{\max\left(\|\mathbf{v}_{\text{sep}}^{(l)}(x, x')\| \|\mathbf{v}_{\text{detour}}^{(l)}(x, x')\|, \epsilon\right)}\right), \tag{9} \\[4pt]
d^{(l)}(x, x') &= \frac{\|\mathbf{v}_{\text{sep}}^{(l)}(x, x')\| + \|\mathbf{v}_{\text{detour}}^{(l)}(x, x')\| - \|\mathbf{v}_{\text{traj}}^{(l)}(x)\|}{\max\left(\|\mathbf{v}_{\text{traj}}^{(l)}(x)\|, \epsilon\right)}, \tag{10}
\end{aligned}
\]  
其中 \(\epsilon = 10^{-8}\) 作为分母的下界以防止除以零。我们类似地计算跨域角度对齐 \(\theta^{(l)}(x, x'')\) 和相对距离 \(d^{(l)}(x, x'')\)。通过比较这些量在域内和跨域分布上的差异,我们测量给定层上的整体域散度。我们在附录C.1 (https://arxiv.org/html/2605.23028#A3.SS1) 中论证了同时使用角度和距离的必要性。  
相对距离描述符 \(d^{(l)}\) 具有清晰的几何解释。根据构造,\(\mathbf{v}_{\text{sep}} + \mathbf{v}_{\text{detour}} = \mathbf{v}_{\text{traj}}\) 精确成立(在附录K (https://arxiv.org/html/2605.23028#A11) 中证明),因此三角不等式保证 \(d^{(l)} \geq 0\),并且 \(d^{(l)}\) 衡量两步绕行相对于直接轨迹的归一化超额路径长度。几何上,当三个表征点共线时(即当 \(\mathbf{h}^{(l)}(x')\)) \(d^{(l)} = 0\)。

相似文章

RAD-2:在生成器-判别器框架中扩展强化学习

Hugging Face Daily Papers

RAD-2 提出了一个用于自动驾驶的统一生成器-判别器框架,将基于扩散的轨迹生成与强化学习优化的重排序相结合,与基于扩散的规划器相比,碰撞率降低了56%。该方法引入了 Temporally Consistent Group Relative Policy Optimization 和 BEV-Warp 仿真环境等技术,以实现高效的大规模训练。

基于对数对齐比的训练时泛化诊断

arXiv cs.LG

本文介绍了对数对齐比(LAR),这是一种训练时度量,用于衡量参数-激活对齐度,并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明,LAR能够跟踪从记忆到泛化的转变,并在无需留出数据的情况下标记过拟合。