跨模型局部等距一致性下的向量链接
摘要
本文介绍了Vector Linking方法,该方法通过利用局部几何一致性来恢复来自不同黑盒编码器的嵌入之间的对应关系,并提出了一种基于参考的迭代式几何嵌入哈希方法,该方法使用少量配对的锚点种子集。
arXiv:2605.31100v1 公告类型:新
摘要:我们研究Vector Linking:给定两个由不同黑盒编码器在部分重叠数据集上生成的嵌入云,仅使用向量恢复跨模型的对象对应关系。通过实验和理论分析,我们证明独立训练的对比编码器表现出局部几何一致性:短距离近似按比例因子保留,而长距离因模型特定扭曲则不然。在此基础上,我们提出了一种迭代的、基于参考的几何嵌入哈希方法,该方法从极小的配对锚点种子集中恢复向量链接。它通过每个向量到采样配对锚点的距离来表示向量,通过哈希空间匹配提出候选链接,并在Beta-Bernoulli后验中跨视图聚合证据,从而自举出高置信度的链接作为新锚点。在多个基准测试和嵌入模型对上的实验表明,该方法在不同重叠度、种子预算和域外锚点下均能实现准确且鲁棒的链接,并应用于向量数据库集成和跨模型聚类。代码可在 https://github.com/DBgroup-Edinburgh/VecLinking 获取。
查看缓存全文
缓存时间: 2026/06/01 09:26
# 通过跨模型局部等距一致性进行向量链接 来源:https://arxiv.org/html/2605.31100 ###### 摘要 我们研究**向量链接**:给定由不同黑盒编码器在部分重叠数据集上生成的两个嵌入云,仅使用向量恢复跨模型对象对应关系。通过实验和理论分析,我们证明独立训练的对比编码器表现出局部几何一致性:短距离大致按比例因子保留,而长距离由于模型特定的扭曲而不一致。基于此,我们提出一种迭代的、基于参考的几何嵌入哈希方法,该方法能从一小组配对的锚点中恢复向量链接。它通过每个向量到采样配对锚点的距离来表示向量,通过哈希空间匹配提出候选链接,并在Beta-Bernoulli后验中跨视图聚合证据,以引导出高置信度链接作为新锚点。在多个基准测试和嵌入模型对上的实验表明,该方法在不同重叠比例、种子预算和域外锚点下均能实现准确且鲁棒的链接,并应用于向量数据库集成和跨模型聚类。代码可在https://github.com/DBgroup-Edinburgh/VecLinking获取。 ## 1 引言 信息系统越来越依赖基于嵌入的检索:大规模对象集合被映射为向量并建立索引以进行相似性搜索。然而,嵌入模型发展迅速,不同系统往往采用不同的微调编码器。因此,实践者会得到多个向量索引,这些索引的表示无法直接比较,即使这些索引包含许多相同的对象。这种互操作性的差距阻碍了统一检索、跨索引去重、联合聚类和向量数据库集成。 **向量链接**。我们研究*向量链接*:当两个嵌入云由不同的黑盒对比编码器生成且仅部分重叠时,恢复它们中哪些向量对应于同一底层对象。形式上,令$O_1$和$O_2$为两个对象数据集,其*未知*重叠为$\Omega=O_1\cap O_2$。令$f_1$和$f_2$为两个编码器,并令$\mathbf{E}_1=f_1(O_1)$和$\mathbf{E}_2=f_2(O_2)$为产生的嵌入集合。我们假设只能访问$\mathbf{E}_1$、$\mathbf{E}_2$以及一小部分配对的锚点集合$S\subseteq M^*$,其中$M^*=\{(f_1(x),f_2(x)): x\in\Omega\}\subseteq E_1\times E_2$。目标是在无法访问原始对象、模型参数、梯度或重新训练的情况下,尽可能多地恢复$M^*$中的配对。 此设置与标准嵌入对齐有两个重要区别。首先,重叠是*部分且未知*的:两个嵌入集合之间不存在全局双射,非重叠区域不仅仅像异常点那样表现。相反,它们可能会显著改变每个编码器看到的全局几何结构。其次,我们追求严格的*事后黑盒*机制。许多兼容性和对齐方法假设可以访问训练数据、编码器内部或训练时的干预;而这里,只有静态向量可用。这两个特性共同使得单一的全局变换不可靠。 **局部等距一致性**。我们的起点是一个简单但稳健的发现。当我们比较共享对象在独立训练的对比编码器之间的成对距离时,短距离保持强相关,而长距离则迅速去相关。换句话说,与嵌入云的全局排列相比,小邻域在模型间要稳定得多。从理论上讲,我们证明这并非纯属经验巧合:通过分析局部化的对齐-均匀性替代项替代对比学习,在标准假设下,我们表明独立训练的对比编码器可以诱导出直至尺度的局部等距度量。 **几何嵌入哈希**。受此观察启发,我们提出了*几何嵌入哈希*(GEH)。GEH的基本单位是*到锚点的距离签名*:给定一小组配对的锚点,每个向量由其自身嵌入空间内到这些锚点的距离来表示。如果两个向量对应同一对象,并且所选锚点位于它们的局部邻域内,那么即使两个嵌入云的全局形状差异显著,这些相对距离模式也应保持相似直至尺度。因此,GEH比较的是归一化的、无尺度签名,而非原始距离。单一的锚点集对于每个点来说并非局部信息丰富,因此GEH不依赖单个全局哈希。相反,它反复采样许多小的锚点子集,或称*视图*,在每个诱导出的哈希空间中独立匹配点,并将产生的匹配视为带噪投票。Beta-Bernoulli后验聚合跨视图的证据,并将高置信度匹配提升为下一轮的新锚点。这种多视图引导方法使得GEH能将极小的种子集扩展为大的对应集合,同时优雅地过滤由模型特定扭曲和部分重叠引起的虚假碰撞。 我们在多个BEIR基准测试和五个编码器对上评估了GEH,涵盖基于API和开放权重的模型。在不同的重叠比例、种子预算和域外种子设置下,仅使用15到30个种子对,GEH始终优于八种线性、非线性和最优传输基线。例如,在只有15个配对种子的情况下,对于Mistral和OpenAI,GEH在FiQA (Maia et al., 2018)上实现了超过90%的召回率。我们进一步展示,恢复的链接改进了下游任务,包括向量数据库集成和跨模型聚类。结果表明,向量链接是嵌入互操作性的实用原语,而对比编码器间的局部几何一致性是解决该问题的关键。 **贡献与组织**。我们的贡献如下: - ∙ 我们提出了**向量链接**问题,即在部分未知重叠情况下恢复两个黑盒嵌入云之间的对应关系。 - ∙ 我们从经验和理论上建立了跨模型的*局部距离一致性*属性,为编码器不变的哈希奠定了基础(第2节)。 - ∙ 我们开发了一种多视图几何哈希算法,结合后验引导的引导方法,仅使用极少量种子即可在不访问原始对象或模型内部的情况下准确恢复向量链接(第3-4节)。 - ∙ 我们在多个基准测试和嵌入模型对上展示了准确且鲁棒的链接(第5节)。 - ∙ 我们进一步展示了它对向量数据库集成和跨模型聚类的益处(第6节)。 **相关工作**。部分重叠下的几何点集配准已通过假设检验(如RANSAC (Fischler & Bolles, 1981)、TEASER++ (Yang et al., 2020))、迭代细化(如ICP (Besl & McKay, 1992)、Go-ICP (Yang et al., 2016))以及不变签名(几何哈希 (Lamdan & Wolfson, 1988))进行研究。这些工具主要设计用于3D刚体空间,无法处理向量链接目标的高维异方差模型诱导扭曲和未知重叠。嵌入对齐方法,例如用于双语词汇诱导的方法,学习空间之间的全局映射(线性/Procrustes、OT/GW)(Mikolov et al., 2013; Xing et al., 2015; Smith et al., 2017; Lample et al., 2018; Artetxe et al., 2018; Alvarez-Melis & Jaakkola, 2018; Grave et al., 2019),通常依赖于近似的全局同构。这种全局一致性也被用于域适应 (Shen et al., 2021; Hu et al., 2022; Wang & Mahadevan, 2011; Wang et al., 2018; Ganin et al., 2016; Hoffman et al., 2017),后者进一步要求训练时访问,这在黑盒向量链接设置中不可用。与寻求使整个空间全局可比的耦合的嵌入对齐不同,向量链接寻求在未知共享支撑上的部分一一对应关系,而将重叠之外的向量保持不匹配。这为全局对齐造成了目标不匹配,因为没有全局双射需要恢复。此外,非重叠区域是有结构的且可能很大,因此它们不像可移除的异常点那样表现。对齐可以在不匹配区域改善全局拟合,同时恶化重叠上的对应关系。向量链接引导下游互操作性任务,如跨模型向量数据库集成 (Yang et al., 2025) 和联合聚类 (Enevoldsen et al., 2025),这些任务假设可靠的跨模型锚点对已知。向量链接通过从黑盒向量云中恢复对应关系来解决这一假设。 **利益冲突披露**。作者声明无财务利益冲突。所有作者仅隶属于学术机构,本工作中评估的嵌入模型是独立的第三方系统。 ## 2 嵌入哈希的基础 本节为编码器不变几何哈希的思想提供几何基础。我们首先建立跨模型距离一致性的一个经验上的短到长距离转变(第2.1节)。然后,我们提供一个局部几何解释,说明为什么对比编码器倾向于保留局部几何结构(第2.2节)。 ### 2.1 局部距离一致性的出现 我们首先量化两个嵌入空间之间欧氏距离的比较方式。令$\mathbf{E}_1$和$\mathbf{E}_2$是由两个不同编码器(例如,Mistral vs. OpenAI)对同一原始数据集$D$产生的嵌入。我们抽取来自$D$的对象对$(u,v)$,计算$d_{\mathbf{E}_1}(u,v)$和$d_{\mathbf{E}_2}(u,v)$,并按$d_{\mathbf{E}_1}(u,v)$将配对分箱。我们在图1中报告每个箱内$d_{\mathbf{E}_1}(u,v)$和$d_{\mathbf{E}_2}(u,v)$之间的Pearson相关性,涵盖了多个BEIR基准测试(更多内容见C.1)。 图1:一致性(线性相关)与向量距离的关系:x轴显示参考空间(Mistral)中的成对距离,y轴报告这些距离与目标空间(OpenAI)中对应距离的Pearson相关性($\rho$)。 **局部一致性**。对于短距离,例如对于ArguAna的$d_{\mathbf{E}_1}(u,v)\lesssim 0.57$,相关性显著为正,$\rho$高于0.8。此外,如附录A.5所示,我们还发现top-$k$检索在跨嵌入时对小$k$(例如$k<10$)表现出强一致性,而对大$k$则不然,这表明在$\mathbf{E}_1$下邻近的配对在$\mathbf{E}_2$下也倾向于保持邻近。这似乎表明短距离范围内的线性相关比长距离具有更大的统计显著性。 **全局去相关($\rho\approx0$)**。随着距离增加,相关性迅速衰减,持续接近零。这种衰退表明缩放因子$\alpha$并非全局恒定。虽然模型在局部邻域的“形状”上一致,但在数据对象的全局排列和分布上存在显著差异。这使得长距离距离在嵌入空间之间不一致。这表明短距离在编码器之间是一致的,因此由短距离组成的到锚点的距离向量可以是编码器不变几何哈希的可行选择。我们还观察到,对于非对比编码器,这种相关性显著更弱(更多内容见附录A.4)。 为了进一步确认这一点,我们还想检查这是否仅仅是经验巧合,还是嵌入模型所固有的。 ### 2.2 局部等距的几何证明 我们为图1中的短距离一致性提供一个几何解释。我们表明这种现象是对比编码器固有的,而非经验巧合。 **几何建模**。我们将数据建模为一个随机变量$X$,其支撑在光滑的$d$维流形$\mathcal{M}\subset\mathbb{R}^N$上,密度为$p(x)$(关于$\mathcal{M}$上的内在黎曼体积测度)。我们用$d_{\mathcal{M}}(x,y)$表示测地距离,它是$x$和$y$所建模的数据对象之间内在语义差异的度量。嵌入模型(又名编码器)是一个映射$f:\mathcal{M}\to\mathbb{R}^K$,其归一化输出$f(\mathcal{M})\subset S^{K-1}$。令编码器$f$在$x$处的雅可比矩阵为$J_f(x)\in\mathbb{R}^{K\times d}$,其中$d$是$\mathcal{M}$的内在维度;它将切向量从数据流形映射到嵌入空间。我们将编码器$f$诱导的度量张量表示为$G_f(x):=J_f(x)^\top J_f(x)\in\mathbb{R}^{d\times d}$,它表征了映射如何扭曲局部距离。 - (A1) 我们假设$f$是二次可微且单射的,并且$G_f(x)$对所有$x\in\mathcal{M}$是正定的,即$J_f(x)$具有满秩$d$。 **短距离邻域**。对于每个$x\in\mathcal{M}$,令$\delta_{\mathcal{M}}(x)>0$使得当$d_{\mathcal{M}}(x,y)<\delta_{\mathcal{M}}(x)$时,从$x$到$y$在$\mathcal{M}$上的最短测地线是唯一的。对于这样的$y$,定义测地位移$v(x,y)\in T_x\mathcal{M}$为沿着这条唯一最短测地线从$x$指向$y$的切向量,归一化使得$\|v(x,y)\|=d_{\mathcal{M}}(x,y)$。 **对比学习**。我们相似文章
使用学习锚点和白化内积改进相对表示
本文提出通过学习鲁棒的语义锚点并使用几何感知相似度度量来改进相对表示,使得不同架构的独立训练模型之间能够实现近乎无损的信息传输和稳定的零样本通信。
Stateful Visual Encoders for Vision-Language Models
本文介绍了一种用于视觉-语言模型的有状态视觉编码器,该编码器基于先前的特征来调节视觉表示,从而在多图像和智能体设置中实现更好的视觉比较。该方法在跨图像空间聚合、纵向放射学等任务上展现出一致的改进。
几何至关重要:用于学习语义对应的3D基础先验
本文介绍了一个后训练框架,利用SAM3D的3D先验来改进2D基础特征中的语义对应,解决了左右混淆和重复部分等问题。该方法使用实例特定的3D重建,无需姿态注释或球面几何捷径。
CapVector:面向视觉-语言-动作模型的参数空间可迁移能力向量学习
本文介绍了 CapVector,这是一种将辅助训练目标与视觉-语言-动作模型的标准监督微调解耦的方法。通过提取可迁移能力向量并引入正交正则化,该方法在显著提升模型性能与泛化能力的同时,大幅降低了计算开销。
中心性而非各向异性驱动多语言嵌入模型中的跨语言检索不对称性
本文研究了多语言嵌入模型中跨语言检索不对称性的成因。作者提出并验证了枢纽中介假说,发现中心性(而非各向异性)是主导原因,并建议使用CSLS替代余弦相似度。