Xetrieval: 稠密检索的机械性解释

Hugging Face Daily Papers 论文

摘要

Xetrieval 是一个机械性框架,通过用推理信息增强句子嵌入并将其分解为可解释的稀疏特征来解释稠密检索,从而在不进行昂贵自回归生成的情况下提供检索决策的特征级解释。

解释为什么稠密检索器会分配高相关性分数仍然具有挑战性,因为检索决策是通过不透明的高维嵌入做出的。现有的解释通常关注表面信号,如词汇匹配、令牌对齐或事后文本推理,因此对于在嵌入层面塑造稠密检索行为的潜在因素提供的洞察有限。我们提出 Xetrieval,一个嵌入层面的机械性框架,用于解释稠密检索。Xetrieval 首先引入一个轻量级推理内化器,通过单次前向传播在嵌入空间中近似思维链推理,用面向推理的信息丰富句子嵌入,同时避免昂贵的自回归生成。然后它将这些经过推理增强的嵌入分解为稀疏、人类可解释的特征,每个特征都与连贯的自然语言描述相关联。通过跨多个文档侧视图聚合稀疏特征重叠,Xetrieval 提供单个检索决策的特征级解释。在多种检索器和基准上的实验表明,Xetrieval 能够发现连贯的可解释特征,产生更强的成对级干预效果,并支持任务级特征引导。项目页面和源代码可在 https://hihiczx.github.io/Xetrieval 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/29 15:02

论文页面 - Xetrieval:密集检索的机理解释

来源:https://huggingface.co/papers/2605.29507

摘要

Xetrieval 是一个机理性框架,通过向句子嵌入注入推理信息并将其分解为可解释的稀疏特征,来解释密集检索中的决策。

解释为什么密集检索器(https://huggingface.co/papers?q=dense%20retrievers)会赋予高相关性分数仍然具有挑战性,因为检索决策(https://huggingface.co/papers?q=retrieval%20decisions)是通过不透明的高维嵌入(https://huggingface.co/papers?q=high-dimensional%20embeddings)做出的。现有解释通常聚焦于表层信号,如词汇匹配、词元对齐或事后文本理由,因此对形成密集检索行为的嵌入层潜在因素洞察有限。我们提出 Xetrieval,一个嵌入层的密集检索机理解释框架。Xetrieval 首先引入一个轻量级的推理内化器(https://huggingface.co/papers?q=reasoning%20internalizer),该内化器通过单次前向传播在嵌入空间(https://huggingface.co/papers?q=embedding%20space)中近似思维链推理(https://huggingface.co/papers?q=Chain-of-Thought%20reasoning),从而在避免昂贵的自回归生成的同时,用推理导向信息丰富句子嵌入。然后,它将这些推理增强的嵌入分解为稀疏的、人类可解释的特征(https://huggingface.co/papers?q=human-interpretable%20features),每个特征都与一段连贯的自然语言描述相关联。通过聚合多个文档视角下的稀疏特征重叠,Xetrieval 为单个检索决策(https://huggingface.co/papers?q=retrieval%20decisions)提供特征级解释(https://huggingface.co/papers?q=feature-level%20explanations)。在多种检索器和基准上的实验表明,Xetrieval 能发现连贯的可解释特征,产生更强的成对级干预效应(https://huggingface.co/papers?q=pair-level%20intervention%20effects),并支持任务级特征导向(https://huggingface.co/papers?q=task-level%20feature%20steering)。项目页面和源代码见 https://hihiczx.github.io/Xetrieval 。

查看 arXiv 页面(https://arxiv.org/abs/2605.29507)查看 PDF(https://arxiv.org/pdf/2605.29507)项目页面(https://hihiczx.github.io/Xetrieval/)GitHub12(https://github.com/Hihiczx/Xetrieval)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29507)

在您的代理中获取此论文:

hf papers read 2605.29507

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型关联该论文

请在模型 README.md 中引用 arxiv.org/abs/2605.29507,以便在此页面中链接。

引用该论文的数据集0

没有数据集关联该论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.29507,以便在此页面中链接。

引用该论文的 Space0

没有 Space 关联该论文

请在 Space README.md 中引用 arxiv.org/abs/2605.29507,以便在此页面中链接。

包含该论文的收藏集0

没有收藏集包含该论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便在此页面中链接。

相似文章

@lateinteraction: 主题演讲录像现已上传至 YouTube,供所有要求我们在 X 平台以外托管的用户观看。https://youtube.com/watch?v=Z2…

X AI KOLs Timeline

一场主题演讲认为,后期交互检索(如 ColBERT 风格)是 AI 规模信息检索研究中最具前景的方向,并指出单向量密集检索存在根本性缺陷,呼吁信息检索社区大幅提升研究雄心。演讲引入 LIMIT 基准测试,作为密集检索泛化能力不足的佐证,并呼吁在 2030 年前实现范式转变。

Q-RAG:通过基于价值的 Embedder 训练实现长上下文多步检索

Hugging Face Daily Papers

Q-RAG 引入了一种基于强化学习的 Embedder 模型微调方法,以实现高效的多步检索,并在长达 10M token 的长上下文基准测试中取得了最先进的结果。该方法为微调小型 LLM 以处理复杂的多步搜索任务提供了一种资源高效的替代方案。