内部检索:注意力模型的内在能力

Hugging Face Daily Papers 论文

摘要

INTRA 表明,注意力模型可以直接从内部表示中进行检索,从而统一检索与生成,同时提高证据召回率和答案质量。

检索增强生成(RAG)通常将检索和生成视为独立的系统。我们提出一个问题:基于注意力的编码器-解码器能否直接从其内部表示中进行检索?我们引入了 INTRA(基于注意力的内在检索,INTrinsic Retrieval via Attention),这是一个框架,其中解码器注意力查询对预编码的证据片段进行评分,然后这些片段直接作为生成上下文被复用。通过设计,INTRA 统一了检索和生成,消除了 RAG 流水线中典型的检索器-生成器不匹配问题。该设计还通过跨查询复用预计算的编码器状态,分摊了上下文编码成本。在问答基准测试中,INTRA 在证据召回率和端到端答案质量方面均优于经过精心设计的检索流水线。我们的结果表明,基于注意力的模型已经具备一种可以被激发而非作为外部模块添加的检索机制。
查看原文
查看缓存全文

缓存时间: 2026/05/14 16:19

论文页面 - 从内部检索:注意力模型的内在能力

来源:https://huggingface.co/papers/2605.05806

摘要

INTRA 展示了基于注意力的模型可以直接从内部表示中进行检索,将检索与生成统一起来,同时提升证据召回与答案质量。

检索增强生成(Retrieval-augmented generation (https://huggingface.co/papers?q=Retrieval-augmented%20generation) ,RAG)通常将检索和生成视为独立的系统。我们探究基于注意力的编码器-解码器(attention-based encoder-decoder (https://huggingface.co/papers?q=attention-based%20encoder-decoder))是否可以直接从其自身的内部表示中进行检索。我们提出 INTRA(通过注意力进行内在检索(INTrinsic Retrieval (https://huggingface.co/papers?q=INTrinsic%20Retrieval)via Attention)),这是一个框架,其中解码器注意力查询(decoder attention queries (https://huggingface.co/papers?q=decoder%20attention%20queries))对预编码的证据块(pre-encoded evidence chunks (https://huggingface.co/papers?q=pre-encoded%20evidence%20chunks))进行评分,这些证据块随后被直接重用作为生成的上下文。通过这种设计,INTRA 统一了检索与生成,消除了 RAG 流水线中典型的检索器-生成器不匹配(retriever-generator mismatch (https://huggingface.co/papers?q=retriever-generator%20mismatch))问题。该设计还通过跨查询重用预计算的编码器状态,实现了上下文编码的分摊。在问答基准上,INTRA 在证据召回(evidence recall (https://huggingface.co/papers?q=evidence%20recall))和端到端答案质量(end-to-end answer quality (https://huggingface.co/papers?q=end-to-end%20answer%20quality))方面均优于强工程化的检索流水线。我们的结果表明,基于注意力的模型已经具备一种可以被激发出来的检索机制,而非需要添加外部模块。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05806)查看 PDF (https://arxiv.org/pdf/2605.05806)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05806)

在你的 agent 中获取此论文:

hf papers read 2605\.05806

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.05806 即可从此页面链接。

引用本论文的数据集0

没有数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.05806 即可从此页面链接。

引用本论文的 Space0

没有 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2605.05806 即可从此页面链接。

包含本论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

Xetrieval: 稠密检索的机械性解释

Hugging Face Daily Papers

Xetrieval 是一个机械性框架,通过用推理信息增强句子嵌入并将其分解为可解释的稀疏特征来解释稠密检索,从而在不进行昂贵自回归生成的情况下提供检索决策的特征级解释。

学习检索:面向文本到SQL智能体的双层长期记忆

arXiv cs.CL

本文提出了MERIT,一种面向交互式文本到SQL智能体的动态多时域记忆检索框架,它使用情节级别和回合级别的记忆,并通过强化学习以及用于密集奖励的过程奖励模型优化的学习检索策略。在BIRD-Interact和Spider2-Snow上的实验表明,MERIT在成功率上优于静态和单时域动态基线,同时需要更少的交互轮次。