为什么先进编码器在稀疏检索上落后?答案及弥合词汇差距的方法

arXiv cs.AI 论文

摘要

本文指出词汇差距是导致ModernBERT等先进编码器在学习型稀疏检索中表现不佳的根本原因,并提出词汇迁移(VT)这一模型无关框架,将编码器迁移至稀疏友好的词汇表,在BEIR基准测试上取得最优结果。

arXiv:2607.00004v1 公告类型:cross 摘要:尽管像ModernBERT这样的先进基础模型在密集检索中显著优于旧架构,但它们在学习型稀疏检索(LSR)中却出人意料地落后于老化的BERT-base基线。我们将根本原因归结为\textit{词汇差距}:现代分词器使用为无损重建而设计的原始、区分大小写的词汇表,将单个语义单元映射到冗余的表面形式,浪费模型容量在形态噪声上,并阻碍词汇匹配。我们通过一个理论框架形式化这一直觉,证明适当的词汇粗粒度化可以通过降低假设类的复杂性来收紧泛化界,前提是保持语义完整性。为解决这个问题,我们提出\textbf{词汇迁移(VT)},一个模型无关的框架,以最小的计算成本将先进编码器迁移到稀疏友好、规范化的词汇表。VT利用一种新颖的通过空间拓扑的\textbf{语义初始化}来保持几何结构,以及一种\textbf{激活势校准(APC)}机制,使预训练流形与稀疏约束对齐,防止标准微调中观察到的死神经元和密集崩溃。经验上,VT普遍有效:它使ModernBERT在BEIR基准测试上取得最先进的性能(\textbf{52.4} nDCG,\textbf{+4.7}提升),使失败的模型如RoBERTa-large恢复活力,并无缝泛化到无推断架构和专门领域。这些结果证实,性能落后并非架构缺陷,而是可解决的词汇不匹配。我们已经发布了代码和模型。\footnote{https://anonymous.4open.science/r/vocab-transfer/. 所有细节均包含在内。}
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:41

# 为什么先进编码器在稀疏检索中表现不佳?答案及弥合词汇鸿沟的方法
来源:https://arxiv.org/html/2607.00004
\(2026\)

###### 摘要

尽管 ModernBERT 等先进基础模型在稠密检索中显著优于旧版架构,但在学习型稀疏检索(LSR)中却令人惊讶地落后于老化的 BERT-base 基线。我们将根本原因归结为**词汇鸿沟**:现代分词器使用为无损重构设计的原始、区分大小写的词汇表,将单个语义单元映射到冗余的表面形式,在形态噪声上浪费模型容量,并阻碍词法匹配。我们通过理论框架形式化这一直觉,证明在保持语义完整性的前提下,适当的词汇粗粒度化可以通过降低假设类的复杂度来收紧泛化边界。为解决此问题,我们提出**词汇迁移(VT)**,这是一个与模型无关的框架,能以最小计算成本将先进编码器迁移到稀疏友好的归一化词汇表。VT 利用一种新颖的基于空间拓扑的**语义初始化**来保留几何结构,以及一种**激活势校准(APC)**机制,将预训练流形与稀疏性约束对齐,防止标准微调中出现的死神经元和稠密坍塌问题。经验表明,VT 具有普遍有效性:它使 ModernBERT 在 BEIR 基准上达到最先进性能(52.4 nDCG,提升 +4.7),拯救了 RoBERTa-large 等失败模型,并能无缝推广到无推理架构和专业领域。这些结果证实,性能落后并非架构缺陷,而是可解决的词汇不匹配问题。我们已发布代码和模型。111https://anonymous.4open.science/r/vocab-transfer/。所有详细信息见内。

SPLADE,学习型稀疏表示,段落检索

††期刊年份:2026††版权:cc††会议:第49届国际ACM SIGIR信息检索研究与发展会议,2026年7月20–24日,澳大利亚墨尔本††书标题:第49届国际ACM SIGIR信息检索研究与发展会议论文集(SIGIR '26),2026年7月20–24日,澳大利亚墨尔本††doi:10\.1145/3805712\.3809724††isbn:979\-8\-4007\-2599\-9/2026/07††ccs:信息系统 检索模型与排序

## 1. 引言

神经信息检索领域已分化为两大主流范式:稠密检索(将查询和文档编码为连续的低维嵌入)(Karpukhin et al., 2020a (https://arxiv.org/html/2607.00004#bib.bib25); Xiong et al., 2021 (https://arxiv.org/html/2607.00004#bib.bib26)) 和学习型稀疏检索(LSR,将文本投影到高维、加权的词法向量)(Formal et al., 2021b (https://arxiv.org/html/2607.00004#bib.bib8); Mallia et al., 2021 (https://arxiv.org/html/2607.00004#bib.bib27))。虽然稠密检索器擅长捕捉语义细微差别,但以 SPLADE (Formal et al., 2021b (https://arxiv.org/html/2607.00004#bib.bib8)) 为代表的稀疏检索器保留了倒排索引的可解释性和效率,同时缓解了传统 BM25 的词法不匹配问题 (Robertson et al., 1995 (https://arxiv.org/html/2607.00004#bib.bib31); Manning et al., 2008 (https://arxiv.org/html/2607.00004#bib.bib9))。

在稠密检索范式中,升级骨干网络是一种行之有效的策略。像 ModernBERT (Warner et al., 2025 (https://arxiv.org/html/2607.00004#bib.bib30)) 这样的现代基础模型不仅提供更强的表示能力,还具备 8k 上下文窗口和 FlashAttention 兼容性等架构优势。

参考标题 图1. **词汇鸿沟**异常。尽管 ModernBERT 等先进编码器在稠密检索中显著优于 BERT,但在标准微调下的稀疏检索中却表现落后。然而,这些架构上的飞跃对稀疏检索仍遥不可及。我们观察到一个令人困惑的异常现象:**先进编码器在稀疏设置下持续表现不佳,常常落后于较旧的 BERT-base-uncased 基线**。如图1 (https://arxiv.org/html/2607.00004#S1.F1) 所示,这种性能退化普遍存在。最直观的解释归因于现代模型中的 BPE 分词器差异。然而,我们观察到 bert-base-cased(使用与有效的 bert-base-uncased 基线相同的 WordPiece 分词器)表现同样糟糕。这隔离了词汇表归一化程度作为关键变量。这种退化在相同的训练流程下仍然存在,表明现代骨干网络的架构进步受到了与稀疏检索目标根本性不兼容的抑制。

我们将根本原因确定为**词汇鸿沟**——具体来说,现代分词朝着为无损重构设计的原始词汇表(即缺乏归一化或预分词)的转变。这些分词器将单个语义单元映射到冗余的表面变体(例如,“Token” vs. “token”),迫使模型浪费容量来弥合这些正交维度——这是稠密模型可以绕过的负担。虽然强制输入小写化提供了部分缓解,但还不够;在区分大小写的分词器上进行激进的小写化往往会破坏令牌(例如,Halloween → hall, ow, een),从而破坏语义完整性。

加剧这一挑战的是高昂的修复成本。虽然从头开始训练一个具有稀疏友好词汇表的模型理论上可以解决问题,但在计算上不可行。现代基础模型在庞大的语料库上训练——例如 ModernBERT,在 2 万亿个令牌上训练 (Warner et al., 2025 (https://arxiv.org/html/2607.00004#bib.bib30))。仅仅为了更换词汇表而复制这种预训练规模对大多数应用来说是不可行的。因此,该领域面临一个两难境地:我们需要现代骨干网络的推理能力和推理效率,但其原生词汇表却不适合稀疏检索。

在这项工作中,我们提供了对这种落后现象的解释以及解决方法。我们认为,稀疏检索需要一个**表示兼容**的词汇表——既能归一化表面形式,又能保留语义区分。我们通过一个理论框架形式化了这一直觉,表明适当的词汇粗粒度化通过降低假设类复杂度而不牺牲近似能力,改善了稀疏检索器的泛化边界。

在此理论指导下,我们提出**词汇迁移(VT)**,一种将强大的预训练骨干网络迁移到稀疏友好词汇表的低代价方法——使用不到原始 ModernBERT 训练令牌的 0.2%,仅需 500 步 MLM 即可达到接近最优的性能。VT 利用一种新颖的基于空间拓扑的**语义初始化**和一种**激活势校准**机制。这使先进骨干网络与 SPLADE 等模型的稀疏性约束对齐,防止了标准微调中观察到的“死神经元”和稠密坍塌。

我们的贡献如下:

- • **理论分析**:我们推导了词汇粗粒度化下稀疏检索的泛化边界,引入**表示兼容性(RC)**来解释为什么归一化能提高可学习性。
- • **方法论**:我们提出 VT,一种与模型无关的过程,使用几何初始化和差异感知自适应将正则化词汇表移植到先进编码器上。
- • **实证验证**:我们证明 VT 具有**普遍有效性**。它使 ModernBERT 在 BEIR (Thakur et al., 2021 (https://arxiv.org/html/2607.00004#bib.bib34)) 上达到最先进结果(52.4 nDCG,提升 +4.7),**拯救**了 RoBERTa-large 等失败模型,并能无缝推广到**无推理**架构和**领域特定**自适应。

## 2. 相关工作

### 2.1. 神经稀疏检索

信息检索的演进见证了从精确匹配启发式(如 BM25 (Robertson et al., 2009 (https://arxiv.org/html/2607.00004#bib.bib35)))到学习语义表示的神经架构的转变。虽然稠密检索 (Karpukhin et al., 2020b (https://arxiv.org/html/2607.00004#bib.bib36); Xiong et al., 2020 (https://arxiv.org/html/2607.00004#bib.bib37)) 将查询和文档编码为连续的低维空间,但学习型稀疏检索(LSR)将文本投影到高维稀疏向量,保留了倒排索引的可解释性和效率。

早期的 LSR 方法侧重于估计词项权重或用相关词项扩展文档。DeepCT (Dai and Callan, 2020 (https://arxiv.org/html/2607.00004#bib.bib39)) 利用 BERT 预测上下文感知的词项权重,将其映射回词袋空间。类似地,docT5query (Nogueira et al., 2019 (https://arxiv.org/html/2607.00004#bib.bib40)) 使用生成模型用潜在查询扩展文档。SparTerm (Bai et al., 2020 (https://arxiv.org/html/2607.00004#bib.bib42)) 引入门控机制来显式学习词项重要性并强制稀疏性。COIL (Gao et al., 2021 (https://arxiv.org/html/2607.00004#bib.bib78)) 通过在倒排列表中存储高效的上下文表示,弥合了稀疏和稠密方法之间的差距。

SPLADE 系列 (Formal et al., 2021b (https://arxiv.org/html/2607.00004#bib.bib8), a (https://arxiv.org/html/2607.00004#bib.bib11); Lassance and Clinchant, 2022 (https://arxiv.org/html/2607.00004#bib.bib47); Lassance et al., 2024 (https://arxiv.org/html/2607.00004#bib.bib46)) 代表了一种范式转变,它直接将稀疏正则化应用于掩码语言模型(MLM)logits,同时进行扩展和加权。最近的研究转向**无推理**架构以减少查询端延迟。TILDE (Zhuang and Zuccon, 2021 (https://arxiv.org/html/2607.00004#bib.bib79)) 及后续工作 (Geng et al., 2024 (https://arxiv.org/html/2607.00004#bib.bib7); Shen et al., 2025 (https://arxiv.org/html/2607.00004#bib.bib12)) 预先计算文档表示,同时保持查询处理轻量级。然而,这些模型暴露于**词汇鸿沟**,因为它们缺乏动态弥合预训练骨干网络与检索任务之间词法不匹配的能力。

### 2.2. 预训练骨干网络与分词化

预训练语言模型(PLM)的有效性与其分词策略密不可分。标准架构如 BERT (Devlin et al., 2019 (https://arxiv.org/html/2607.00004#bib.bib28)) 使用 WordPiece (Schuster and Nakajima, 2012 (https://arxiv.org/html/2607.00004#bib.bib33)),而现代骨干网络如 RoBERTa (Liu et al., 2019 (https://arxiv.org/html/2607.00004#bib.bib29)) 和 ModernBERT (Warner et al., 2025 (https://arxiv.org/html/2607.00004#bib.bib30)) 依赖 BPE (Sennrich et al., 2016 (https://arxiv.org/html/2607.00004#bib.bib32))。虽然子词正则化 (Kudo, 2018 (https://arxiv.org/html/2607.00004#bib.bib80)) 和 CharacterBERT (El Boukkouri et al., 2020 (https://arxiv.org/html/2607.00004#bib.bib81)) 等技术试图提高形态鲁棒性,但标准子词词汇表中表面形式的刚性区分仍然是稀疏匹配的基本瓶颈,需要大量模型容量来弥合这些词法差距。

### 2.3. 词汇迁移与自适应

将预训练模型适配到新词汇表是一个关键挑战。这个问题在跨语言迁移中已被广泛研究,词汇表不对齐严重阻碍了性能 (Artetxe et al., 2020 (https://arxiv.org/html/2607.00004#bib.bib82))。为了解决这个问题,研究人员提出了各种初始化策略,以在不完全重新训练的情况下将新词汇表与预训练流形对齐。WECHSEL (Minixhofer et al., 2022 (https://arxiv.org/html/2607.00004#bib.bib83)) 使用共享的双语静态嵌入空间来映射目标子词,并将每个新令牌嵌入初始化为其 k 个最近源子词嵌入的相似性加权平均值。最近,FOCUS (Dobler and de Melo, 2023 (https://arxiv.org/html/2607.00004#bib.bib24)) 被提出用于将词汇表从单语言语言模型迁移到多语言。它利用 FastText (Bojanowski et al., 2017 (https://arxiv.org/html/2607.00004#bib.bib95)) 推导新令牌与锚定令牌之间的相似性关系,然后用这些关系对组合进行加权。Mundra 等人 (Mundra et al., 2024 (https://arxiv.org/html/2607.00004#bib.bib23)) 对这些策略进行了全面的实证验证,强调利用源嵌入结构对于收敛至关重要。

在学习型稀疏检索(LSR)的具体背景下,词汇表设计的影响是深远的,但直到最近才引起关注。Lionis 等人 (2026 (https://arxiv.org/html/2607.00004#bib.bib101)) 通过实验确认了词汇表大小写对稀疏检索的影响,Lei 等人 (2025 (https://arxiv.org/html/2607.00004#bib.bib100)) 探索了用 LLM 增强基于词典的嵌入。关于自适应,ESPLADE (Dudek et al., 2023 (https://arxiv.org/html/2607.00004#bib.bib84); Kim et al., 2025 (https://arxiv.org/html/2607.00004#bib.bib85)) 代表了最近一次将 SPLADE 能力迁移到新词汇表的尝试。然而,ESPLADE 依赖于在大型语料库上进行计算昂贵的连续掩码语言建模(MLM)来对齐新的嵌入空间。与这些方法不同,我们的工作提出了一种**表示兼容(RC)**迁移方法,利用几何初始化以最小的自适应成本来弥合词汇鸿沟。

### 2.4. 检索模型的理论分析

传统的检索模型理论分析侧重于概率相关性建模和词项加权方案,如概率相关框架中的 BM25 (Robertson et al., 2009 (https://arxiv.org/html/2607.00004#bib.bib35); Manning et al., 2008 (https://arxiv.org/html/2607.00004#bib.bib9))。对于现代神经模型,大多数可用理论来自通用的学习理论工具,而非 IR 特定的分析。特别是,基于 Rademacher 复杂度的线性预测器界限(具有 l1 和 l2 约束)为稀疏线性假设类提供了样本复杂度和基于间隔的泛化能力的精确估计 (Kakade et al., 2008 (https://arxiv.org/html/2607.00004#bib.bib13))。这些结果支撑了后来许多关于正则化、稀疏性和高维学习的分析。对于学习型稀疏检索,现有工作主要集中在经验或架构方面。据我们所知,目前仍然很少有工作明确将词汇表设计和归一化与 LSR 中的容量度量或样本复杂度联系起来。

## 3. 理论分析

我们对稀疏检索器进行统一分析,这些检索器在共享的离散键空间(令牌/词项)中操作,双方具有非负、稀疏的权重。为避免符号过载,本节中我们保留 d 表示文档,并使用 p 表示特征空间维度。

### 3.1. 通过 RC 粗粒度化建模

虽然像 SPLADE 这样的神经稀疏检索器使用两个学习编码器之间的点积,但我们通过将查询编码器视为生成线性权重的分布来分析文档编码器的泛化能力。这种标准简化使我们能够将 Rademacher 复杂度分析应用于稀疏表示

相似文章

DREAM:通过自回归建模实现密集检索嵌入

Hugging Face Daily Papers

DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度,从而训练密集检索嵌入,无需标注数据。在不同模型规模下,它在BEIR和RTEB基准测试上始终优于基线。

Xetrieval: 稠密检索的机械性解释

Hugging Face Daily Papers

Xetrieval 是一个机械性框架,通过用推理信息增强句子嵌入并将其分解为可解释的稀疏特征来解释稠密检索,从而在不进行昂贵自回归生成的情况下提供检索决策的特征级解释。