嵌入空间中的结构保留作为基准性能的预测指标
摘要
本文表明,通过最近邻重叠和ICA差异测量的嵌入空间结构保留,与多个任务上的基准性能强相关,为模型有效性提供了预测指标。
arXiv:2605.22202v1 公告类型:新
摘要:在本文中,我们展示了高性能嵌入模型以一致的方式组织其嵌入空间。我们在英语和多语言环境下,在涵盖四个不同任务类别(检索、双语文本挖掘、配对分类和摘要)的五项MTEB任务上评估了25个当代嵌入模型,并揭示了配对文本实例之间的最近邻重叠和独立成分分析(ICA)中的幅度差异与给定任务的性能强相关(甚至高达0.97)。最终,我们表明嵌入任务表现出不同程度的线性性和对局部信息保留的依赖。我们的结果进一步加深了对嵌入及其与模型性能关系的理解,并为未来可能的训练目标和优化条件嵌入提供了启示。
查看缓存全文
缓存时间: 2026/05/22 08:45
# 嵌入空间中的结构保持作为基准性能的预测指标 **来源:** https://arxiv.org/html/2605.22202 Amanda Myntti¹ [email protected] & Jenna Kanerva¹ [email protected] & Veronika Laippala¹ [email protected] & Filip Ginter¹,² [email protected] ¹TurkuNLP,图尔库大学,芬兰;²ELLIS Institute Finland ###### 摘要 本文表明,高性能的嵌入模型会以一致的方式组织其嵌入空间。我们评估了 25 个当代嵌入模型在五个 MTEB 任务上的表现,这些任务涵盖四个不同的任务类别(检索、双语文本挖掘、配对分类和摘要),涉及英语和多语言场景。结果显示,在一对文本实例之间,最近邻重叠率与独立成分分析(ICA)的幅度差异与给定任务性能高度相关(最高可达 0.97)。最终,我们表明嵌入任务展现出不同程度的线性特性以及对局部信息保持的依赖程度。我们的研究结果加深了对嵌入及其与模型性能关系的理解,并为未来可能的训练目标和优化条件嵌入提供了启示。 ## 1 引言 嵌入语言模型(或称嵌入模型)是经过优化的语言模型,用于为文本生成数值表示,以支持聚类、检索和分类等多种任务(Xie et al., 2016 (https://arxiv.org/html/2605.22202#bib.bib59);Huang et al., 2020 (https://arxiv.org/html/2605.22202#bib.bib24);Wang et al., 2016 (https://arxiv.org/html/2605.22202#bib.bib57))。由于嵌入是当前许多 NLP 应用的核心组成部分,评估它们——同时研究其结构和优化方法——至关重要。迄今为止,对嵌入模型的评估主要集中在下游性能上:模型通过嵌入大型数据集来评估,这既耗时又需要大量计算资源。这种以应用为中心的视角也导致对“为什么一个嵌入模型优于另一个”的理解相对不足。这种对哪些属性有益或有害的理解缺失,限制了我们在设计有效训练目标、选择能够泛化到测试集之外的模型、分析失败案例以及开发新优化方法(如条件感知嵌入)方面的能力。 我们通过分析结构保持来研究什么使得嵌入模型有效。我们假设模型对任务的适用性反映在其如何组织嵌入空间上。理想情况下,任务相关信息应系统地呈现出来,或者说比喻性地“端到端地呈现”:例如,翻译任务应受益于将不同语言中的平行句子放置在类比配置中,这样在语言之间移动将对应于空间中相对简单的映射。我们将同样的原理应用于更广泛的嵌入任务集。我们不跨模型比较嵌入,而是通过利用常见嵌入评估任务中的配对结构(例如问答对)来孤立地分析每个模型的嵌入空间。这使我们能够研究驱动任务成功的因素,而不仅仅是报告一个聚合的评估分数。 具体来说,我们使用 kNN 重叠率和基于独立成分分析(ICA)的线性方法作为探测工具,研究常见嵌入基准数据集中查询侧与目标侧的对齐程度。我们发现嵌入空间几何结构与基准性能之间存在强关系,并且我们的结果提供了证据,表明这些属性有助于解释跨任务的性能差异。我们的贡献如下: **发现 1** 我们发现查询与目标之间的高 k 近邻重叠率与给定任务性能高度相关(最高达 0.97)。这表明强嵌入模型在其嵌入空间中以相互一致的方式组织配对文本。 **发现 2** 我们发现 ICA 分量中的幅度差异(“峰值”)同样与性能强相关,并且可用于分析任务信息的线性程度。 **发现 3** 我们通过揭示这些指标所能揭示的结构差异,并结合 ICA 的可解释特征来验证我们的结果。 ## 2 背景与动机 先前的工作已广泛研究了语言模型的表示空间,例如嵌入、下一个词预测前的输出或内部状态。一个反复出现的主题是**线性**:即概念可以被表示为其他概念的线性组合。这一观察可追溯到早期词嵌入(Mikolov et al., 2013 (https://arxiv.org/html/2605.22202#bib.bib34)),并在 Transformer 模型中得到进一步检验(Nanda et al., 2023 (https://arxiv.org/html/2605.22202#bib.bib37);Gurnee and Tegmark, 2024 (https://arxiv.org/html/2605.22202#bib.bib18);Park et al., 2024 (https://arxiv.org/html/2605.22202#bib.bib40)),有证据表明高层概念通常以线性方式编码。与此一致的是,嵌入已被成功使用线性方法分析,特别是独立成分分析(ICA)(Hyvärinen, 1999 (https://arxiv.org/html/2605.22202#bib.bib26)),例如在 Yamagiwa et al. (2023 (https://arxiv.org/html/2605.22202#bib.bib60))、Li et al. (2024 (https://arxiv.org/html/2605.22202#bib.bib29))、Musil and Mareček (2024 (https://arxiv.org/html/2605.22202#bib.bib36)) 中。另一种新兴的分析表示方法是叠加视角(Elhage et al., 2022 (https://arxiv.org/html/2605.22202#bib.bib12)),该观点认为概念可以更有效地编码为近乎正交而非完全正交的表示;显著例子包括 Cunningham et al. (2023 (https://arxiv.org/html/2605.22202#bib.bib9))、Gurnee et al. (2023 (https://arxiv.org/html/2605.22202#bib.bib19))、Chen et al. (2025 (https://arxiv.org/html/2605.22202#bib.bib7))。最后,Park et al. (2025 (https://arxiv.org/html/2605.22202#bib.bib41)) 报告高层概念(例如语言、性别或生命性)表现出线性,而低层概念则以更复杂的结构编码。 多项研究表明,不同的嵌入模型共享显著的几何结构,且它们的空间可以通过相对简单的映射进行对齐。Ren et al. (2023 (https://arxiv.org/html/2605.22202#bib.bib44)) 认为,不同初始化的嵌入模型的空间在一定的容差内是同构的。Yoon and Arik (2025 (https://arxiv.org/html/2605.22202#bib.bib62)) 提出了嵌入转换器(Embedding Converter),这是一种将一个嵌入空间映射到另一个的框架。Lin and Smith (2019 (https://arxiv.org/html/2605.22202#bib.bib31)) 通过最近邻重叠分数比较模型,以量化共享的局部结构。此外,Wang et al. (2022a (https://arxiv.org/html/2605.22202#bib.bib53)) 通过专门分析语义文本相似性(STS)任务和余弦相似度,将嵌入空间结构与评估分数联系起来。 参考说明 (a) Intfloat/multilingual-e5-large-instruct 参考说明 (b) Google/embedding-gemma-300m 图 1:英法翻译对在 ICA(维度=32)变换后的嵌入上,每个输出维度的平均绝对差异(\(\|\Delta\|\)),标准差以误差线表示。Multilingual-e5-large-instruct 在英法任务上得分高,显示出特征性的“峰值”,而 embedding-gemma-300m 没有,对应于同一任务得分较低。 我们的动机如下:如果现代嵌入模型展现出上述结构,那么像 ICA 这样的简单线性方法应该能够在其嵌入空间中隔离出主导的概念级信号(例如语言)。为了说明直觉,考虑一个包含 \(N\) 个翻译对的数据集 \(D = \big[(t_1, t'_1), (t_2, t'_2), \dots, (t_N, t'_N)\big]\),从英文文本 \(t_i\)(查询)到法文 \(t'_i\)(目标)。令 \(f(t) \in \mathbb{R}^d\) 表示 \(t\) 的嵌入。我们将 ICA 拟合在两边的嵌入上: \[ \text{ICA} \overset{\text{fit}}{\leftarrow} \big\{ f(t_1), \dots, f(t_N), f(t'_1), \dots, f(t'_N) \big\}. \] 如果语言是(如假设)查询与目标之间的主要系统性差异,并且以近似线性方式表示,那么 ICA 应该为该信号分配一个专门的成分。因此,当我们变换两个嵌入并取每对的逐元素差异时: \[ \text{ICA}\big(f(t_i)\big) - \text{ICA}\big(f(t'_i)\big), \] 该差异的大部分幅度应集中在少数几个 ICA 维度上。当我们为每个 ICA 维度绘制查询与目标对之间的平均绝对差异时,这种集中应表现为一个明显的“峰值”。图 1 (https://arxiv.org/html/2605.22202#S2.F1) 对两个模型(multilingual-e5-large-instruct 和 embedding-gemma-300m)展示了这一效应。对于 multilingual-e5-large-instruct,可以清晰地观察到峰值,表明 ICA 在其输出空间中隔离了一个语言特定的方向,并且该模型恰好在一个英法任务上获得高分,而 embedding-gemma-300m 没有产生这样的峰值,得分也较低。我们表明,峰值的**突出程度**能够描述模型的性能。 然而,并非所有概念都以线性方式在表示空间中编码(例如,Park et al. (2025 (https://arxiv.org/html/2605.22202#bib.bib41)))。因此,我们还考虑查询与目标之间结构相似性的更一般概念。我们不显式学习从 \(f(t_i)\) 到 \(f(t'_i)\) 的映射,而是直接利用嵌入评估数据集的查询–目标结构进行探测。具体来说,我们计算**邻域保持率**:在 \(f(t_i)\) 和 \(f(t'_i)\) 之间共享的 \(k\)-近邻的比例,并发现强有力的证据表明,邻域保持率更高的模型在评估分数上也更高。 在本文中,我们将范围从示例性的翻译任务扩展到来自四个不同任务类别的五个任务,展示上述嵌入空间属性与评估分数之间的关系对于 25 个当代嵌入模型都成立:在这些设置中,我们确定这两种结构度量与基准分数强相关。我们进一步分析这些度量之间的关系,使用 ICA 刻画特定任务的线性结构,并利用 ICA 分量的可解释性来验证发现。 ## 3 方法 ### 3.1 数据集 本研究使用的数据集包括 ARCChallenge (Clark et al., 2018 (https://arxiv.org/html/2605.22202#bib.bib8))、WebFAQ (Dinzinger et al., 2025 (https://arxiv.org/html/2605.22202#bib.bib11))、Tatoeba (Tatoeba community, 2021 (https://arxiv.org/html/2605.22202#bib.bib48))、RTE3 (Giampiccolo et al., 2007 (https://arxiv.org/html/2605.22202#bib.bib17)) 和 SummEval (Fabbri et al., 2021 (https://arxiv.org/html/2605.22202#bib.bib14))。这些数据集的摘要见表 1 (https://arxiv.org/html/2605.22202#S3.T1),多语言任务中包含的语言以 ISO 语言代码形式显示在结果表格中(例如,表 3 (https://arxiv.org/html/2605.22202#S4.T3))。这些数据集覆盖了 MTEB 基准中的四种任务类型,并且被选中是因为它们包含定义良好的配对文本实例。例如,ARCChallenge 包含问答对,SummEval 包含文档–摘要对;我们分别将这些分区称为查询和目标。我们使用测试/开发集,并在附录 A.1 (https://arxiv.org/html/2605.22202#A1.SS1) 中提供进一步的数据集构建细节,例如 RTE3 中矛盾段落的选择。 ### 3.2 嵌入模型 本研究中使用的嵌入模型列于表 2 (https://arxiv.org/html/2605.22202#S3.T2)。我们选择在多个维度上有所变化的模型,以确保实验的可信度:(1) 在 MTEB 多语言排行榜上的得分(覆盖广泛范围);(2) 模型开发者(涵盖多样化集合,每个系列选择少数模型);(3) 模型可访问性(主要为开放权重模型,加少数突出的封闭权重模型);以及 (4) 语言范围(包括仅英语模型和多语言模型)。这一选择有助于确保观察到的差异反映的是实际模型能力的变化,而不仅仅是混淆因素。 此外,大多数当代嵌入模型都期望与提示(prompt)一起使用,即添加到查询中的简短指令,以帮助引导嵌入朝向期望的输出。因此,我们在有无提示两种情况下运行主要实验。提示、提示模板以及额外的模型信息在附录 A.2 (https://arxiv.org/html/2605.22202#A1.SS2) 中提供。我们使用 `sentence-transformers` (Reimers and Gurevych, 2019 (https://arxiv.org/html/2605.22202#bib.bib43)) 库。 **表 1:** 本研究中使用的数据集。\(N\) 表示配对实例的数量。 | 数据集名称 | MTEB 类别 | 配对差异 | 语言 | \(N\) | |-------------|------------|----------|------|------| | ARCChallenge | 检索 | 问答 | 英语 | 937 | | WebFAQ | 检索 | 问答 | 13 种语言 | 5000 | | Tatoeba | 双语文本挖掘 | 英语–非英语 | 10 种语言 | 5000 | | RTE3 | 配对分类 | 前提–矛盾 | 4 种语言 | 90 | | SummEval | 摘要 | 文档–摘要 | 英语 | 80 | ### 3.3 MTEB 评估 我们使用官方 MTEB 仓库 (https://github.com/embeddings-benchmark/mteb)(访问于 2026 年 2 月 12 日)中的评估分数。然而,该仓库对于某些任务仅包含语言聚合的分数,在这种情况下我们自行使用 `mteb` 库 (Muennighoff et al., 2023 (https://arxiv.org/html/2605.22202#bib.bib35); Enevoldsen et al., 2025 (https://arxiv.org/html/2605.22202#bib.bib13)) 以默认设置评估任务。不幸的是,WebFAQ 的分数对于闭源模型不可用,且由于该任务包含大量示例(每种语言超过 10 万条),因此也无法在此类模型上评估。类似地,对最大的模型使用 `mteb` 库评估 WebFAQ 将需要超出我们能力范围的计算资源,因此对于这一特定任务,我们报告一组截断模型的结果,省略的模型在表 2 (https://arxiv.org/html/2605.22202#S3.T2) 中标注。 **表 2:** 本研究中使用的嵌入模型,参数数量(Par.)以十亿为单位,以及 MTEB 多语言排行榜上的平均得分(Sc.)。模型按提供者或微调的基础模型分类。标有星号(*)的模型未包含在 WebFAQ 评估中,无参数计数的模型为封闭权重模型。 | 模型 | Par. (B) | Sc.↑ | 模型 | Par. (B) | Sc.↑ | |------|----------|------|------|----------|------| | bge-m3 (https://huggingface.co/BAAI/bge-m3) | 0.568 | 59.56 | granite-107m-multilingual (https://huggingface.co/ibm-granite/granite-embedding-107m-multilingual) | 0.107 | 51.81 | | bge-base-en-v1.5 (https://huggingface.co/BAAI/bge-base-en-v1.5) | 0.033 | 43.76 | granite-125m-english (https://huggingface.co/ibm-granite/granite-embedding-125m-english) | 0.125 | 44.04 | | jina-b-en-v1 (https://huggingface.co/jinaai/jina-embedding-b-en-v1) | 0.1 | 40.91 | gemini-embedding-001 (https://ai.google.dev/gemini-api/docs/embeddings)* | - | 68.37 | | jina-v2-sm | ... | ... | ... | ... | ... |
相似文章
几何金丝雀:通过表征稳定性预测可操控性与检测漂移
# 论文页面 - 几何金丝雀:通过表征稳定性预测可操控性与检测漂移 来源:[https://huggingface.co/papers/2604.17698](https://huggingface.co/papers/2604.17698) ## 摘要 几何稳定性指标既能预测语言模型的可控性,也能检测其结构退化;其中监督版在操控预测上表现优异,无监督版在漂移检测上更胜一筹。
你的嵌入模型比你想象的更聪明
SMART是一个框架,能够解锁单向量模型中的潜在多向量能力,用于多模态检索,通过对比训练和后期交互推理,在降低计算成本的同时提升最先进的性能。
Embeddings 用于偏好,而非语义
本文介绍了一种新的 embedding 模型,旨在捕捉偏好相似性,而不仅仅是语义相似性,从而提高了集体决策系统中的偏好预测能力。
评估盲点:大语言模型基准覆盖的体视学理论
本文运用体视学理论分析大语言模型基准,揭示当前排行榜仅测量3-5个独立维度,产生的几何盲点主导统计噪声。文章提供了基准覆盖的理论界限,并提出一个用于高效基准选择的子模算法。
论词汇性在大语言模型中的持续影响
本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。