使用学习锚点和白化内积改进相对表示

arXiv cs.LG 2026/06/01 04:00 论文

摘要

本文提出通过学习鲁棒的语义锚点并使用几何感知相似度度量来改进相对表示，使得不同架构的独立训练模型之间能够实现近乎无损的信息传输和稳定的零样本通信。

arXiv:2605.30596v1 公告类型：新摘要：独立训练的神经模型通常会收敛到不相容的潜在表示，这为高度模块化的AI系统制造了根本性障碍。虽然相对表示（RR）通过将绝对坐标映射到一个由与公共锚点的相似性定义的共享空间来解决这一问题，但传统实现依赖于随机采样的锚点和余弦相似度，这常常无法捕捉现代架构（如Transformer）的各向异性几何特性。在这项工作中，我们提出了一种基于两项改进的跨模型通信鲁棒框架。我们学习锚点作为鲁棒的语义原型，并利用一种几何感知的相似性度量，该度量保留判别性幅度信息且对仿射变换不变。我们的方法在视觉和语言任务上展示了显著的性能和一致性提升。值得注意的是，它即使在不同尺度的小型语言模型等高度异构架构之间，也能实现近乎无损的信息传输和稳定的零样本通信。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:28

# 通过学习的锚点与白化内积改进相对表示
来源：https://arxiv.org/html/2605.30596
Oscar Thorsted Svendsen∗，1 Nikolaj Holst Jakobsen∗，1 Fabian Mager†，1 Hiba Nassar†，1 1 丹麦技术大学 \{s224177, s234818, hibna, fmager\}@dtu\.dk ∗这些作者对本文贡献相等，并共享第一作者身份。†这些作者指导了该项目。

###### 摘要

独立训练的神经模型通常会收敛到不兼容的潜在表示，这为高度模块化的AI系统设置了根本性障碍。虽然相对表示（Relative Representations，RR）通过将绝对坐标映射到一个由与公共锚点的相似性定义的共享空间来解决这个问题，但传统的实现依赖于随机采样的锚点和余弦相似度，这常常无法捕捉像Transformer这样的现代架构的各向异性几何结构。在这项工作中，我们提出了一个基于两项改进的跨模型通信鲁棒框架。我们将锚点学习为鲁棒的语义原型，并利用一种几何感知的相似性度量，该度量保留了具有区分度的幅度信息，并且对仿射位移保持不变。我们的方法在视觉和语言任务中展示了显著的性能和一致性提升。值得注意的是，即使在高度异构的架构之间，例如不同规模的小型语言模型，它也能够实现近乎无损的信息传输和稳定的零样本通信。

*关键词* 相对表示 ⋅ 零样本拼接 ⋅ 锚点学习 ⋅ 表示对齐

## 1 引言

相对表示（RR）解决了模块化表示学习中的一个核心问题：独立训练的编码器可以捕捉相同的底层语义，但同时以不同方式组织其潜在空间。即使两个模型表示相同的输入，它们的嵌入空间也可能存在旋转、各向异性缩放或平移的差异，这使得它们之间的直接迁移变得困难。RR 避免了依赖于绝对坐标，而是通过每个嵌入与一组共享*锚点*的相似性来表示它们。例如，“king”这个词在英语、法语和德语中应该与“queen”和“castle”相似，即使绝对嵌入不同。RR 通过使用基于锚点的相似性作为公共坐标系，将这一思想扩展到一般的嵌入空间。

我们将此设置形式化如下：考虑 E=\{E1,...,EB\}\to 是一组 B 个独立训练的编码器。对于任意编码器 Ei∈E，设 Xi=\{xni\}n=1N⊂Rd 表示由 N 个并行输入产生的 d 维嵌入集合¹，这些输入是指每个空间中嵌入的相同底层输入。我们定义一组锚点 A=\{a1,⋯,am\}。给定一个相似函数 s(·，·)，对于嵌入 x∈Rd 的 RR 映射是：

RR(x)=[s(x,a1),...,s(x,am)]⊤∈Rm   (1)

其中 s(·，·) 接收两个向量作为输入，返回一个标量。在 Moschella 等人 [1] 提出的标准公式中，锚点是并行数据点的随机采样子集 A⊂X，并且使用余弦相似度作为 s(·，·)。如果两个独立训练的编码器使用相同的锚点和相似度，它们的 RR 特征可以对齐到足以实现*零样本拼接*，即在一个编码器的相对嵌入上训练模块，并在另一个编码器的相对嵌入上部署它。

RR 的目标是为独立训练的编码器提供一个共享的相对接口。为此，相对映射应满足以下两个目标：

##### 跨空间对齐 (Oal)
对于一组 N 个并行输入，任意两个编码器 Ei 和 Ej 产生的相对坐标必须对齐，使得配对点之和上的距离最小化：∑n=1Nd(RR(xni),RR(xnj))≈0，其中 d(·，·) 是一个距离度量。

##### 信息保留 (Oinf)
相对特征应保留绝对嵌入中存在任务相关信号，使得在 RR(x) 上训练的下游模型能够达到与直接在 X 上训练的模型相当的性能。

标准 RR 可能在以下两个原因上无法同时满足这两个目标。首先，锚点通常通过随机采样选择，这不能保证对数据流形有良好的覆盖。分布不良或冗余的锚点可能产生低秩的相对特征并丢弃任务相关信息，从而损害 Oinf。其次，余弦相似度仅依赖角度关系，丢掉了可能携带有用信号（如特征置信度 [2]）的幅度信息。它也可能在均值偏移和各向异性缩放（这在基于Transformer的嵌入空间中很常见 [3,4]）下变得不稳定。此外，在原点附近，余弦相似度对噪声敏感：向量中微小的扰动可能导致其归一化方向发生不成比例的大变化。因此，即使使用共享锚点，相对坐标也可能在不同编码器之间发生变化，削弱 Oal 并降低 Oinf，如图1 所示。

这些局限性引出了两个设计假设。首先，为了同时支持 Oal 和 Oinf，锚点应具有信息量且稳定：它们应该覆盖流形、避免冗余，并在不同嵌入空间中保持一致的语义角色。其次，为了支持 Oal，相似度函数应能抵抗通常使独立训练的潜在空间分离的仿射失真，同时仍保留有用的角度和幅度信息。本文提出的方法通过学习锚点构建 (PARAM) 和一种协方差感知的相似性度量 (WIP)，联合解决了这两个需求。

参见图例

图1: 展示了使用余弦相似度作为 s(·，·) 和随机锚点可能出现的条件及其对 RR 的影响：i) 线性相关锚点导致的维度塌缩。ii) s(·，·) 如何放大接近 (0，0) 的锚点中的噪声。iii) s(·，·) 对某些仿射变换的不变性。

## 2 相关工作

Moschella 等人 [1] 提出了通过共享锚点实现零样本拼接的相对表示 (RR)，Maiorca 等人 [5] 最近将该框架扩展到潜在翻译。虽然这些工作探索了像 k-means 和 farthest-point sampling (FPS) 这样的锚点选择方法，但这些策略本质上局限于静态的离散点，并且在其他方面仍有改进空间。我们的工作直接建立在这个框架之上：我们保留通过各数据点与锚点的相似性来表示每个数据点的整体思想，但重新审视了最直接影响所得相对空间质量的两个设计选择，即锚点构建和相似度。

RR 之所以可行的一个基本原因是，独立训练的模型通常学习具有相关几何结构的表示。Kornblith 等人 [6] 表明，不同神经网络学习到的表示（即使使用不同的随机初始化）仍然可以表现出可靠的相似性。在我们的设定中，这激励我们创建一个共享的相对空间系统，而不是依赖于绝对潜在坐标——受到 Huh 等人 [7] 的启发。

在后续研究中，与我们研究最相关的是 Hüttebräucker 等人 [8]，他们将 RR 应用于语义信道均衡，并论证锚点选择对性能很重要。他们的工作尤其相关，因为它超越了纯粹随机锚点的范围，提出了一种更结构化的锚点选择策略。这与我们的动机高度一致：如果相对空间维度等于锚点数量，那么锚点冗余或覆盖不足直接限制了表示的质量。我们的贡献在于，我们不将锚点选为固定点；相反，PARAM 将它们学习为并行数据点的凸混合。

## 3 方法

为了解决标准 RR 的局限性并满足跨空间对齐 (Oal) 和信息保留 (Oinf) 的目标，我们提出了一个由两部分组成的框架：(i) *通过自适应矩阵的参数化锚点表示 (PARAM)*，它将锚点学习为并行数据点的凸混合；(ii) *白化内积 (WIP)*，这是一种协方差感知的相似度，旨在抵抗仿射失真，使相对坐标在不同嵌入空间之间更加稳定。

### 3.1 PARAM：将锚点学习为数据点的凸混合

为了确保相对坐标系建立在稳健的基础上，我们提出 PARAM 来突破将锚点视为数据流形上固定子集的局限性。PARAM 不是采样一个静态集合 A⊂X，而是将锚点定义为一个支持集的可学习凸混合，优化它们的位置以最大化信息保留和跨空间一致性。

设 Xsubi∈RK×d 表示一个“支持集”，包含来自每个编码器 Ei∈E 的 K 个并行嵌入的子集 Xsubi⊆Xi。我们定义第 i 个嵌入空间中的 m 个锚点为一个矩阵 Ai=[a1i，...,ami]⊤∈Rm×d。每个单独的锚点 ari∈Rd（Ai 的第 r 行）通过一个共享的混合矩阵 P 生成：

Ai=PXsubi        P∈Rm×K，   (2)

其中 P 是一个跨所有嵌入空间优化的共享权重矩阵。为确保锚点语义上保持在数据的凸包内，P 被约束为行随机矩阵。将 P 应用于所有 B 个编码器对应的支持集 Xsubi，便创建了跨空间语义对齐的锚点集合：A={A1，...,AB}。

将锚点构建为凸混合通过平均化提供了显著的降噪效果。如果我们将各个点中编码器特定的嵌入位置差异近似视为独立同分布噪声，那么平均操作 ari=∑j=1KPrj(Xsubi)j 会降低所得锚点的方差。具体来说，如果学习到的权重 P 是均匀的，这会将噪声标准差降低 1/K 倍。这确保了每个锚点 ari 作为一个稳定的加权原型，对任何单个 Ei 的随机变化或架构偏差不那么敏感。此外，PARAM 能够在潜在空间内实现连续的锚点放置，这与限制锚点为离散的、现有数据点的传统方法不同。

### 3.2 训练目标

我们通过最小化损失函数的加权和来优化混合矩阵 P。我们将可以在单个嵌入空间内计算的目标与需要跨嵌入空间配对样本的目标分开。完整的定义和方程在附录A 中给出。

##### 单空间目标：

- •*覆盖度 (Lcov)*：软 k-means 聚类，将锚点拉向质心以覆盖空间，降低冗余/塌缩的风险。
- •*正交性 (Lorth)*：惩罚相关锚点，提高 RR 特征的有效秩并减少退化坐标。
- •*长度控制 (Llen)*：约束锚点具有受控的 L2 范数，防止向原点塌缩或漂移到极端尺度。

##### 多空间目标：

- •*对称 InfoNCE（信息噪声对比估计）(LsymNCE)*：跨嵌入空间的并行点的 RR 特征进行跨空间对齐，将对应样本拉近，将其他样本推远 [9]。

##### 总目标

使用权重 {λ·}，我们最小化

L=λsymNCELsymNCE+λcovLcov+λlenLlen+λorthLorth。   (3)

如果 B=1，我们仅使用 {Lcov，Llen，Lorth} 来训练 PARAM。如果 B>1，我们额外包含 LsymNCE，以使用配对样本对齐跨编码器的 RR 空间。

### 3.3 相似度：白化内积 (WIP)

为了满足跨空间对齐 (Oal) 和信息保留 (Oinf)，相似度函数 s(·，·) 必须能够抵抗表征独立训练编码器的全局均值偏移和各向异性缩放。我们提出白化内积 (WIP)，它将嵌入 x 和锚点 ari 之间的相似度表示为白化坐标系中的标准内积。

形式上，对于每个嵌入空间 i，我们首先移除经验均值 μi，然后应用对称白化变换 Li=(Σi)−1/2。WIP 相似度定义如下：

sWIP(x,ari)=⟨Li(x−μi),Li(ari−μi)⟩=(x−μi)⊤(Σi)−1(ari−μi)   (4)

这直接有利于 Oal，因为它使相似度对编码器特定的仿射失真不那么敏感。精确的仿射不变性仅适用于非收缩形式（附录B）。此外，WIP 保留了嵌入的幅度和角度信息，当范数携带判别信号时，这对于 Oinf 至关重要。

图2 展示了 s(·，·) 的影响

使用学习锚点和白化内积改进相对表示

相似文章

几何至关重要：用于学习语义对应的3D基础先验

跨模型局部等距一致性下的向量链接

语义运动锚点：弥合共语手势中的运动与意义

挖掘深度中间表示的潜在能力

Geo-Align: 基于度量几何奖励的视频生成对齐

提交意见反馈