你的逆嵌入矩阵实际上是文本嵌入的特征透镜

Hugging Face Daily Papers 2026/06/05 00:00 论文

摘要

本文指出，LLM文本嵌入过度表达了高频无信息词元，并提出EmbedFilter，一种线性变换，通过滤除该子空间来改善语义表示并实现降维。

大语言模型在多种下游任务中展现出令人印象深刻的零样本能力。然而，它们难以直接作为现成的嵌入模型使用，导致在大规模文本嵌入基准上表现欠佳。本文我们识别了导致这一缺陷的潜在原因。我们的动机源于一个意料之外的观察：当将文本嵌入投影到词汇空间时，它们倾向于与频繁但无信息的词元对齐。我们认为，这种对高频词元的过度表达抑制了模型捕捉细微语义的能力。为解决此问题，我们提出EmbedFilter，一种简单的线性变换，旨在直接精炼从LLM得到的文本嵌入。具体而言，我们发现LLM中的逆嵌入矩阵编码了一个潜在空间，该空间主动将这些高频词元写入嵌入空间。通过滤除该子空间，EmbedFilter抑制了高频词元的影响，从而增强语义表示。作为一项引人注目的副产品，这实现了固有的降维，降低了索引存储并加速检索，同时完全保留了精炼后的嵌入质量。我们在多个LLM骨干上的实验表明，配备EmbedFilter的LLM即使在嵌入维度大幅降低的情况下也能实现优越的零样本下游性能。我们希望我们的发现能提供对基于LLM的表示机制的更深入见解，并启发更多有原则的设计来改进文本嵌入训练。我们的代码可在 https://github.com/CentreChen/EmbFilter 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/08 07:14

论文页面 – Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings

来源：https://huggingface.co/papers/2606.07502

摘要

大语言模型生成的文本嵌入通过 EmbedFilter 得到增强，这是一种线性变换，能够降低高频令牌的影响、改进语义表示，同时支持降维。

大语言模型（https://huggingface.co/papers?q=Large%20language%20models）在广泛的下游任务中展现出令人印象深刻的零样本能力。然而，它们难以直接作为开箱即用的嵌入模型使用，在大规模文本嵌入基准上表现欠佳。在本文中，我们确定了导致这一缺陷的一个潜在原因。我们的动机源于一个意外的观察：文本嵌入（https://huggingface.co/papers?q=text%20embeddings）在投影到词汇空间后，倾向于与频繁出现但无信息的令牌对齐。我们认为，这些高频令牌（https://huggingface.co/papers?q=high-frequency%20tokens）的过度表达抑制了模型捕捉细微语义的能力。为解决这一问题，我们引入了 EmbedFilter，这是一种简单的线性变换（https://huggingface.co/papers?q=linear%20transformation），旨在直接优化由 LLM 生成的文本嵌入（https://huggingface.co/papers?q=text%20embeddings）。具体而言，我们发现 LLM 内部的解嵌入矩阵（https://huggingface.co/papers?q=unembedding%20matrix）编码了一个潜在空间，该空间正在主动将这些频繁令牌写入嵌入空间。通过滤除这个子空间，EmbedFilter 抑制了高频令牌（https://huggingface.co/papers?q=high-frequency%20token）的影响，从而增强了语义表示（https://huggingface.co/papers?q=semantic%20representations）。作为一个有吸引力的副产品，这还实现了固有的降维（https://huggingface.co/papers?q=dimensionality%20reduction），降低了索引存储成本并加快了检索速度，同时完全保留了优化后的嵌入质量。我们在多个 LLM 骨干网络上的实验表明，配备 EmbedFilter 的 LLM 即使在嵌入维度显著降低的情况下，也能实现更优的零样本下游性能。我们希望这些发现能为 LLM 表示的机制提供更深入的见解，并启发更原则性的设计来改进文本嵌入（https://huggingface.co/papers?q=text%20embeddings）训练。我们的代码可在 https://github.com/CentreChen/EmbFilter 获取。

查看 arXiv 页面（https://arxiv.org/abs/2606.07502）查看 PDF（https://arxiv.org/pdf/2606.07502）GitHub2（https://github.com/CentreChen/EmbFilter）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.07502）

在你的 agent 中获取本文：

hf papers read 2606.07502

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

没有模型链接本文

请在模型 README.md 中引用 arxiv.org/abs/2606.07502 以从本页链接。

引用本文的数据集0

没有数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.07502 以从本页链接。

引用本文的 Space0

没有 Space 链接本文

请在 Space README.md 中引用 arxiv.org/abs/2606.07502 以从本页链接。

包含本文的收藏1

相似文章

@vintcessun: 原来LLM文本embedding被高频token（句号、冠词）绑架了！Unembedding矩阵隐式定义了一个低秩子空间，主导这些无信息量的表达。这是LLM作为通用embedding效果不佳的根本原因，且污染很隐蔽。EmbedFilter…

X AI KOLs Timeline

该研究揭示了LLM文本嵌入被高频token（如句号、冠词）绑架的问题，提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义，实现零训练开销的降维和检索效率提升。

你的逆嵌入矩阵实际上是文本嵌入的特征透镜

论文页面 – Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Space0

包含本文的收藏1

相似文章

@vintcessun: 原来LLM文本embedding被高频token（句号、冠词）绑架了！Unembedding矩阵隐式定义了一个低秩子空间，主导这些无信息量的表达。这是LLM作为通用embedding效果不佳的根本原因，且污染很隐蔽。EmbedFilter…

Query Lens：利用间接效应解释稀疏键值特征

你的嵌入模型比你想象的更聪明

共享潜在结构实现LLMs中后门攻击的统一检测与缓解

@mixedbreadai：到如今，所有人都知道单向量嵌入模型对现代工作流极为有限。但它们包含更多…

提交意见反馈