密集段落检索中嵌入压缩的谱调整方法

arXiv cs.CL 2026/04/20 04:00 论文

摘要

谱调整（SpecTemp）提出了一种无需学习的密集段落检索嵌入压缩方法，该方法基于信噪比分析自适应地确定最优的谱缩放系数，性能优于PCA和白化等固定超参数方法。

arXiv:2603.19339v2 公告类型：替换-交叉摘要：降维对于大规模部署密集检索系统至关重要，但主流的事后处理方法面临一个根本权衡：主成分分析（PCA）保留主导方差但利用率不足，而白化在强制各向同性的同时会放大检索嵌入重尾特征谱中的噪声。中间谱缩放方法通过幂系数$\gamma$对维度进行重新加权，统一了这两个极端，但将$\gamma$视为需要任务特定调优的固定超参数。我们证明最优缩放强度$\gamma$不是全局常数：它随目标维度$k$系统性地变化，并由保留子空间的信噪比（SNR）控制。基于这一洞察，我们提出了谱调整（**SpecTemp**），一种无需学习的方法，通过本地SNR分析和膝点归一化直接从语料库特征谱推导自适应$\gamma(k)$，无需标注数据或基于验证的搜索。广泛的实验表明，谱调整在保持完全无需学习和模型无关的同时，相对于网格搜索的$\gamma^*(k)$一致达到近乎最优的性能。我们的代码已在https://github.com/liyongkang123/SpecTemp公开发布。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:33

# 稠密段落检索中的谱调节用于嵌入压缩
来源: https://arxiv.org/html/2603.19339
\(2026\)

###### 摘要\.

维度降低对于大规模部署稠密检索系统至关重要，但主流的事后方法面临着根本的折衷：主成分分析\(PCA\)保留主要方差但未充分利用表示容量，而白化在检索嵌入的重尾特征谱中放大噪声的代价下强制等向性。中间光谱缩放方法通过用幂系数γ\\gamma重新加权维度来统一这两个极端，但将γ\\gamma视为需要任务特定调优的固定超参数。我们表明最优缩放强度γ\\gamma不是全局常数：它随目标维数kk系统地变化，并由保留子空间的信噪比\(SNR\)控制。基于这一洞察，我们提出光谱调节\(SpecTemp\)，一种无需学习的方法，使用局部SNR分析和拐点归一化直接从语料库特征谱导出自适应γ\(k\)\\gamma\(k\)，无需标注数据或基于验证的搜索。广泛的实验表明，光谱调节相对于网格搜索的γ∗\(k\)\\gamma^\{\*\}\(k\)始终实现接近最优的性能，同时保持完全无需学习和与模型无关。我们的代码已在https://github.com/liyongkang123/SpecTemp公开发布。

稠密检索、嵌入压缩、主成分分析

††journalyear:2026††copyright:cc††conference:第49届国际ACM SIGIR信息检索研究与发展会议；2026年7月20日至24日；澳大利亚墨尔本††booktitle:第49届国际ACM SIGIR信息检索研究与发展会议论文集\(SIGIR '26\)，2026年7月20日至24日，澳大利亚墨尔本††doi:10\.1145/3805712\.3809896††isbn:979\-8\-4007\-2599\-9/2026/07††ccs:信息系统 检索模型与排序††ccs:计算方法 自然语言处理

## 1\.引言

参考图1\.稠密检索嵌入的一致光谱结构。MS MARCO和NQ上采样的1M个嵌入的特征值分布在不同检索器上呈现一致的重尾衰减，揭示了头尾信噪比\(SNR\)梯度——前导分量具有信号主导性而尾部维度易受噪声影响——激发了维度自适应调节。

稠密检索已成为现代搜索系统中第一阶段检索的主要范式\(Karpukhinet al\.,2020 (https://arxiv.org/html/2603.19339#bib.bib1); Xionget al\.,2021 (https://arxiv.org/html/2603.19339#bib.bib3); Reimers and Gurevych,2019 (https://arxiv.org/html/2603.19339#bib.bib89)\)，其中查询和文档被编码为高维嵌入，关联性通过余弦相似度等相似度函数计算。虽然基于大语言模型\(LLM\)的最新编码器\(Zhanget al\.,2025 (https://arxiv.org/html/2603.19339#bib.bib65); Liet al\.,2023 (https://arxiv.org/html/2603.19339#bib.bib71); Longet al\.,2025 (https://arxiv.org/html/2603.19339#bib.bib68)\)达到了最先进\(SOTA\)的性能，但它们通常产生高维嵌入\(例如1024–4096维\)，增加了向量索引的内存占用和大规模部署中的相似度计算成本。

为了减轻这些成本，已探索了诸如学习投影\(Zhanget al\.,2026 (https://arxiv.org/html/2603.19339#bib.bib94)\)、条件自编码器\(Liuet al\.,2022 (https://arxiv.org/html/2603.19339#bib.bib91)\)和知识蒸馏\(Lioutaset al\.,2020 (https://arxiv.org/html/2603.19339#bib.bib93)\)等基于训练的方法，但这些方法需要与特定编码器相关的重训练基础设施。因此，事后压缩——在不更新参数的情况下降低维度——提供了更实用的替代方案，但其主要基线占据了有缺陷的极端。主成分分析\(PCA\)保留最大方差\(Zhanget al\.,2024 (https://arxiv.org/html/2603.19339#bib.bib95)\)但留下能量分布高度倾斜，允许头部维度压倒互补的判别信号。相反，标准白化\(Suet al\.,2021 (https://arxiv.org/html/2603.19339#bib.bib75)\)通过将所有维度归一化为单位方差来强制等向性；然而检索嵌入的特征谱是重尾的\(图1 (https://arxiv.org/html/2603.19339#S1.F1)\)，这种归一化会大幅放大噪声。中间光谱缩放方法尝试通过用分数次幂λi−γ/2\\lambda\_\{i\}^\{\-\\gamma/2\}\(γ∈\[0,1\]\\gamma\\in\[0,1\]\)\(Su,2022 (https://arxiv.org/html/2603.19339#bib.bib83)\)重新加权维度来解决这一困境。但是，以前的工作将γ\\gamma视为需要按任务调优的静态超参数，忽视了最优调节随目标维数kk系统地变化。例如，激进白化\(γ≈1\\gamma\\approx 1\)有利于紧凑子空间\(k=64k=64\)但在较大kk时由于放大低SNR尾部分量而降低质量。

在这项工作中，我们通过对语料库特征谱的局部SNR分析来正式化这种维度依赖的行为。通过估计光谱噪声底，我们获得了一个SNR配置文件，揭示了从信号主导到易受噪声影响的分量的平滑头尾转换——解释了为什么当目标维数kk增长以包含低SNR尾部方向时，最优调节强度应该减弱。基于这一洞察，我们提出光谱调节\(SpecTemp\)，一种无需学习的方法，直接从SNR配置文件分析导出自适应γ\(k\)\\gamma\(k\)，在方差保留\(PCA\)和等向性\(白化\)之间自动插值。所得的线性变换从语料库嵌入离线计算并在推理时以相同方式应用于查询，无需标注数据或基于验证的调优。

我们的贡献有三个方面：

∙\\bullet我们描述了光谱缩放的*维度依赖*最优性，证明理想γ\\gamma本质上由子空间SNR而非固定常数所控制。

∙\\bullet我们提出SpecTemp，一种无需学习的方法，从语料库特征谱分析导出自适应γ\(k\)\\gamma\(k\)，无需标注数据或基于验证的调优。

∙\\bullet我们在多个基于LLM的嵌入模型和多样检索数据集上进行广泛实验，证明SpecTemp相对于网格搜索的γ∗\(k\)\\gamma^\{\*\}\(k\)始终实现接近最优的性能。

## 2\.相关工作

##### 稠密检索\.

稠密检索已从BERT-based双编码器\(Devlinet al\.,2019 (https://arxiv.org/html/2603.19339#bib.bib82); Karpukhinet al\.,2020 (https://arxiv.org/html/2603.19339#bib.bib1); Xionget al\.,2021 (https://arxiv.org/html/2603.19339#bib.bib3); Hofstätteret al\.,2021 (https://arxiv.org/html/2603.19339#bib.bib17); Linet al\.,2023 (https://arxiv.org/html/2603.19339#bib.bib18)\)演进为具有紧凑768维表示的大规模LLM-based架构。为了捕捉复杂的语义，最近的SOTA模型如RepLLaMA\(Maet al\.,2024 (https://arxiv.org/html/2603.19339#bib.bib47)\)、E5-Mistral\(Wanget al\.,2022 (https://arxiv.org/html/2603.19339#bib.bib46)\)和Qwen3-Embedding\(Zhanget al\.,2025 (https://arxiv.org/html/2603.19339#bib.bib65)\)采用十亿参数规模、通常仅解码器的骨干网络。虽然产生了优越的泛化能力，但这一转变通常产生高维嵌入\(例如4096维\)，造成了激励我们研究的存储瓶颈。最近的工作也检查了稠密检索器的有效性和效率以外的方面，包括它们在对抗设置下的鲁棒性\(Li,2026 (https://arxiv.org/html/2603.19339#bib.bib96)\)，如查询扰动\(Penhaet al\.,2022 (https://arxiv.org/html/2603.19339#bib.bib98)\)和语料库投毒\(Zhonget al\.,2023 (https://arxiv.org/html/2603.19339#bib.bib10); Liuet al\.,2023 (https://arxiv.org/html/2603.19339#bib.bib21); Liet al\.,2025a (https://arxiv.org/html/2603.19339#bib.bib43),b (https://arxiv.org/html/2603.19339#bib.bib97)\)。

##### 嵌入压缩\.

减轻这些开销的策略分为两大类：基于训练和事后处理。

基于训练的方法在训练期间或训练后优化压缩目标。Matryoshka表示学习\(MRL\)\(Kusupatiet al\.,2022 (https://arxiv.org/html/2603.19339#bib.bib69)\)已获得广泛采用，通过在前缀维度中嵌套信息来支持灵活截断。其他方法采用知识蒸馏将能力转移到较小的学生模型\(Lioutaset al\.,2020 (https://arxiv.org/html/2603.19339#bib.bib93)\)，或优化条件自编码器以将固定嵌入压缩为隐代码\(Liuet al\.,2022 (https://arxiv.org/html/2603.19339#bib.bib91)\)。虽然有效，但这些策略需要额外的训练数据并产生高重训练计算成本，使得它们对于现成或仅限API的模型不切实际。

相比之下，事后处理方法在不更新参数的情况下变换预训练嵌入。光谱投影主导此景观，基于特征值缩放维度。PCA\(γ=0\\gamma=0\)最大化方差但留下空间各向异性\(Zhanget al\.,2024 (https://arxiv.org/html/2603.19339#bib.bib95); Maet al\.,2021 (https://arxiv.org/html/2603.19339#bib.bib74); Zuoand Khashabi,2026 (https://arxiv.org/html/2603.19339#bib.bib84)\)，而标准白化\(γ=1\\gamma=1\)强制等向性但冒险放大尾噪声\(Suet al\.,2021 (https://arxiv.org/html/2603.19339#bib.bib75); Huanget al\.,2021 (https://arxiv.org/html/2603.19339#bib.bib76)\)。中间策略采用分数指数γ∈\[0,1\]\\gamma\\in\[0,1\]在这两个极端间插值\(Su,2022 (https://arxiv.org/html/2603.19339#bib.bib83)\)，但它们依赖于需要按任务调优的静态超参数。或者，随机投影通过Johnson–Lindenstrauss引理\(Johnsonet al\.,1984 (https://arxiv.org/html/2603.19339#bib.bib77)\)提供维度无关的压缩但忽略学习的流形结构。

单独的工作线通过事后处理针对等向性，如移除主导方向\(Mu and Viswanath,2018 (https://arxiv.org/html/2603.19339#bib.bib78); Rajaee and Pilehvar,2021 (https://arxiv.org/html/2603.19339#bib.bib79); Raunaket al\.,2019 (https://arxiv.org/html/2603.19339#bib.bib80)\)或映射到均匀分布\(Liet al\.,2020 (https://arxiv.org/html/2603.19339#bib.bib85)\)，尽管这些侧重于质量而非维度降低。类似地，乘积量化\(PQ\)\(Jégouet al\.,2011 (https://arxiv.org/html/2603.19339#bib.bib81)\)及其变体通过码书实现索引级压缩\(Douzeet al\.,2024 (https://arxiv.org/html/2603.19339#bib.bib92)\)；作为下游操作，此方法与线性投影（如我们的）正交且可组合。

SpecTemp在此景观中占据独特位置：它是一种*事后处理、无需学习*的线性投影，从保留子空间的局部SNR导出维度自适应调节强度γ\(k\)\\gamma\(k\)，无需标注数据、重训练、基于验证的调优或索引级修改。

## 3\.方法

我们现在描述光谱调节\(SpecTemp\)，一种事后压缩方法，直接从语料库嵌入的特征谱导出维度自适应调节指数γ\(k\)\\gamma\(k\)。该方法分为三个阶段：光谱分解、SNR引导指数导出和嵌入变换。

### 3\.1\.光谱分解

给定语料库嵌入矩阵X∈Rn×d\\mathbf\{X\}\\in\\mathbb\{R\}^\{n\\times d\}，我们首先通过减去列均值μ\\boldsymbol\{\\mu\}来对其进行中心化：

\(1\)X ̄=X−1μ⊤\\bar\{\\mathbf\{X\}\}=\\mathbf\{X\}\-\\mathbf\{1\}\\boldsymbol\{\\mu\}^\{\\top\}中心化减少了全局偏移方向的影响并产生更稳定的协方差谱；我们对查询和文档都应用相同的语料库派生中心化以保持几何一致性。然后我们计算协方差矩阵的特征分解：

\(2\)C=1n−1X ̄⊤X ̄=UΛU⊤\\mathbf\{C\}=\\frac\{1\}\{n\-1\}\\bar\{\\mathbf\{X\}\}^\{\\top\}\\bar\{\\mathbf\{X\}\}=\\mathbf\{U\}\\boldsymbol\{\\Lambda\}\\mathbf\{U\}^\{\\top\}其中Λ=diag\(λ1,...,λd\)\\boldsymbol\{\\Lambda\}=\\mathrm\{diag\}\(\\lambda\_\{1\},\\dots,\\lambda\_\{d\}\)，λ1≥λ2≥⋯≥λd\\lambda\_\{1\}\\geq\\lambda\_\{2\}\\geq\\dots\\geq\\lambda\_\{d\}，且U=\[u1,...,ud\]\\mathbf\{U\}=\[\\mathbf\{u\}\_\{1\},\\dots,\\mathbf\{u\}\_\{d\}\]是对应的特征向量。

### 3\.2\.SNR引导指数导出

光谱调节的核心洞察是适当的调节强度应由保留子空间的信号质量所控制。我们通过局部SNR分析将其正式化。

##### 噪声底估计\.

我们估计噪声底σnoise2\\sigma^\{2\}\_\{\\text\{noise\}\}为光谱尾的平均特征值：

\(3\)σnoise2=1\|T\|∑i∈Tλi\\sigma^\{2\}\_\{\\text\{noise\}\}=\\frac\{1\}\{\|\\mathcal\{T\}\|\}\\sum\_\{i\\in\\mathcal\{T\}\}\\lambda\_\{i\}其中T\\mathcal\{T\}表示最后10%的特征值索引。如图1所示\(https://arxiv.org/html/2603.19339#S1.F1\)，不同检索编码器展现出一致的重尾特征谱，其尾部始终稳定平台至稳定噪声底，使得此区域成为可靠的与模型无关的噪声估计锚点。我们在第4\.2\.4节\(https://arxiv.org/html/2603.19339#S4.SS2.SSS4\)验证SpecTemp对精确百分位数选择不敏感，确认此默认值不需要按任务调优。

##### 局部SNR计算\.

秩i處的局部SNR测量噪声底上的过量能量：

\(4\)SNR\(i\)=max⁡\(0,λi−σnoise2σnoise2\)\\mathrm\{SNR\}\(i\)=\\max\\\!\\left\(0,\\;\\frac\{\\lambda\_\{i\}\-\\sigma^\{2\}\_\{\\text\{noise\}\}\}\{\\sigma^\{2\}\_\{\\text\{noise\}\}\}\\right\)我们注意此量并非旨在作为尖峰协方差模型意义上的生成统计估计，而是作为相对信号主导的单调的光谱级代理——足以校准调节指数。此量对于信号占主导的头部分量很大，对于特征值收敛到噪声底的尾部消失。

##### 锚点和自适应γ\(k\)\\gamma\(k\)\.

为了在不需要任务特定调优的情况下导出γ\(k\)\\gamma\(k\)，我们需要一个参考点来区分高置信度信号制度和过渡制度。我们将此锚点识别为SNR曲线的*拐点*——SNR从快速衰减到渐进衰减的秩——通过Kneedle算法检测\(Satopaaet al\.,2011 (https://arxiv.org/html/2603.19339#bib.bib73)\)。设kknee k\_\{\\text\{knee\}\}为此秩，Sref=SNR\(kknee\)S\_\{\\text\{ref\}\}=\\mathrm\{SNR\}\(k\_\{\\text\{knee\}\}\)为对应的SNR值。

由于第kk个分量定义了保留子空间的噪声瓶颈，我们使用其SNR作为子空间信号质量的保守代理。这确保调节强度受到最坏情况噪声暴露的约束，而不是过度受乐观的高方差方向影响。对于目标维数kk的自适应指数为：

\(5\)γ\(k\)=min\(1,SNR\(k\)Sref\)\\gamma\(k\)=\\min\\\!\\left\(1,\\;\\frac\{\\mathrm\{SNR\}\(k\)\}\{S\_\{\\text\{ref\}\}\}\\right\)

密集段落检索中嵌入压缩的谱调整方法

相似文章

显露信号，隐藏噪声：像素空间扩散的频谱强制

尾巴中的捷径：通过微调更新的后验谱压缩进行去偏

SEGA: 扩散变换器中基于光谱能量引导的注意力机制实现分辨率外推

随机动力系统中嵌入潜在转移算子的深度谱学习

Spectral Souping：在线偏好对齐的统一框架

提交意见反馈