你的逆嵌入矩阵实际上是文本嵌入的特征透镜
摘要
本文指出,LLM文本嵌入过度表达了高频无信息词元,并提出EmbedFilter,一种线性变换,通过滤除该子空间来改善语义表示并实现降维。
查看缓存全文
缓存时间: 2026/06/08 07:14
论文页面 – Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings
来源:https://huggingface.co/papers/2606.07502
摘要
大语言模型生成的文本嵌入通过 EmbedFilter 得到增强,这是一种线性变换,能够降低高频令牌的影响、改进语义表示,同时支持降维。
大语言模型(https://huggingface.co/papers?q=Large%20language%20models)在广泛的下游任务中展现出令人印象深刻的零样本能力。然而,它们难以直接作为开箱即用的嵌入模型使用,在大规模文本嵌入基准上表现欠佳。在本文中,我们确定了导致这一缺陷的一个潜在原因。我们的动机源于一个意外的观察:文本嵌入(https://huggingface.co/papers?q=text%20embeddings)在投影到词汇空间后,倾向于与频繁出现但无信息的令牌对齐。我们认为,这些高频令牌(https://huggingface.co/papers?q=high-frequency%20tokens)的过度表达抑制了模型捕捉细微语义的能力。为解决这一问题,我们引入了 EmbedFilter,这是一种简单的线性变换(https://huggingface.co/papers?q=linear%20transformation),旨在直接优化由 LLM 生成的文本嵌入(https://huggingface.co/papers?q=text%20embeddings)。具体而言,我们发现 LLM 内部的解嵌入矩阵(https://huggingface.co/papers?q=unembedding%20matrix)编码了一个潜在空间,该空间正在主动将这些频繁令牌写入嵌入空间。通过滤除这个子空间,EmbedFilter 抑制了高频令牌(https://huggingface.co/papers?q=high-frequency%20token)的影响,从而增强了语义表示(https://huggingface.co/papers?q=semantic%20representations)。作为一个有吸引力的副产品,这还实现了固有的降维(https://huggingface.co/papers?q=dimensionality%20reduction),降低了索引存储成本并加快了检索速度,同时完全保留了优化后的嵌入质量。我们在多个 LLM 骨干网络上的实验表明,配备 EmbedFilter 的 LLM 即使在嵌入维度显著降低的情况下,也能实现更优的零样本下游性能。我们希望这些发现能为 LLM 表示的机制提供更深入的见解,并启发更原则性的设计来改进文本嵌入(https://huggingface.co/papers?q=text%20embeddings)训练。我们的代码可在 https://github.com/CentreChen/EmbFilter 获取。
查看 arXiv 页面(https://arxiv.org/abs/2606.07502)查看 PDF(https://arxiv.org/pdf/2606.07502)GitHub2(https://github.com/CentreChen/EmbFilter)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.07502)
在你的 agent 中获取本文:
hf papers read 2606.07502
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
没有模型链接本文
请在模型 README.md 中引用 arxiv.org/abs/2606.07502 以从本页链接。
引用本文的数据集0
没有数据集链接本文
请在数据集 README.md 中引用 arxiv.org/abs/2606.07502 以从本页链接。
引用本文的 Space0
没有 Space 链接本文
请在 Space README.md 中引用 arxiv.org/abs/2606.07502 以从本页链接。
包含本文的收藏1
相似文章
@vintcessun: 原来LLM文本embedding被高频token(句号、冠词)绑架了!Unembedding矩阵隐式定义了一个低秩子空间,主导这些无信息量的表达。这是LLM作为通用embedding效果不佳的根本原因,且污染很隐蔽。EmbedFilter…
该研究揭示了LLM文本嵌入被高频token(如句号、冠词)绑架的问题,提出EmbedFilter方法通过对unembedding矩阵进行SVD分解并减去投影分量来释放真实语义,实现零训练开销的降维和检索效率提升。
Query Lens:利用间接效应解释稀疏键值特征
Query Lens 扩展了 Logit Lens,通过联合考虑编码器侧的键特征和解码器侧的值特征,并计入来自下游模块的间接效应,来解释稀疏自编码器特征。该论文还提出了子空间通道假说,表明下游模块通过特定层的子空间读取特征。
你的嵌入模型比你想象的更聪明
SMART是一个框架,能够解锁单向量模型中的潜在多向量能力,用于多模态检索,通过对比训练和后期交互推理,在降低计算成本的同时提升最先进的性能。
共享潜在结构实现LLMs中后门攻击的统一检测与缓解
本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。
@mixedbreadai:到如今,所有人都知道单向量嵌入模型对现代工作流极为有限。但它们包含更多…
单向量嵌入模型可用于提取稀疏潜在术语,而BM25可将这一词汇转化为强大的检索器。