DREAM:通过自回归建模实现密集检索嵌入
摘要
DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度,从而训练密集检索嵌入,无需标注数据。在不同模型规模下,它在BEIR和RTEB基准测试上始终优于基线。
查看缓存全文
缓存时间: 2026/06/24 05:46
论文页面 - DREAM: Dense Retrieval Embeddings via Autoregressive Modeling
来源:https://huggingface.co/papers/2606.24667 发布于 6 月 23 日
·
由 https://huggingface.co/yixuantt 提交
yixuan (https://huggingface.co/yixuantt) 于 6 月 24 日
摘要
DREAM 利用自回归语言模型的注意力机制来训练密集检索嵌入,无需标注示例即可监督文档-查询相似度。
密集检索嵌入模型 (https://huggingface.co/papers?q=Dense%20retrieval%20embedding%20models) 是现代基于检索的 AI 系统的基础组件。大多数密集检索器通过对比学习目标 (https://huggingface.co/papers?q=contrastive%20objectives) 进行训练,这需要标注的正、负文档对,而这些标注往往代价高昂且难以获取。在本文中,我们研究了大语言模型(LLM)的自回归下一个 token 预测 (https://huggingface.co/papers?q=next-token%20prediction) 目标能否为密集检索提供监督信号。直觉很简单:如果一个文档包含与查询相关的信息,那么以该文档为条件,LLM 预测目标输出应该更容易。一个关键挑战在于,下一个 token 预测 (https://huggingface.co/papers?q=next-token%20prediction) 的损失在 LLM 内部计算,而检索器是独立的嵌入模型。为解决这一挑战,我们提出了 DREAM(通过自回归建模 (https://huggingface.co/papers?q=Autoregressive%20Modeling) 实现密集检索嵌入),它将在检索器生成的查询-文档相似度 (https://huggingface.co/papers?q=query-document%20similarity) 分数注入到冻结 LLM (https://huggingface.co/papers?q=frozen%20LLM) 的选定注意力头 (https://huggingface.co/papers?q=attention%20heads) 中。在训练过程中,这些分数决定了 LLM 预测目标输出时每个候选文档接收到的注意力大小。由此产生的预测损失通过注意力机制 (https://huggingface.co/papers?q=attention%20mechanism) 为检索器训练提供梯度。我们在检索基准 (https://huggingface.co/papers?q=retrieval%20benchmarks) BEIR (https://huggingface.co/papers?q=BEIR) 和 RTEB (https://huggingface.co/papers?q=RTEB) 上评估了 DREAM,使用了参数规模从 0.5B 到 3B 的嵌入骨干 (https://huggingface.co/papers?q=embedding%20backbones)。DREAM 在不同模型规模下始终优于现有基线。这些结果表明,DREAM 为通过自回归建模 (https://huggingface.co/papers?q=autoregressive%20modeling) 训练密集检索器提供了一种有前景的方法。
查看 arXiv 页面 (https://arxiv.org/abs/2606.24667) 查看 PDF (https://arxiv.org/pdf/2606.24667) GitHub 0 (https://github.com/yixuantt/DREAM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24667)
在您的 agent 中获取这篇论文:
hf papers read 2606.24667
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型 0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.24667,以在此页面建立链接。
引用本文的数据集 0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.24667,以在此页面建立链接。
引用本文的 Spaces 0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.24667,以在此页面建立链接。
包含本文的收藏集 0
没有收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以在此页面建立链接。
相似文章
Xetrieval: 稠密检索的机械性解释
Xetrieval 是一个机械性框架,通过用推理信息增强句子嵌入并将其分解为可解释的稀疏特征来解释稠密检索,从而在不进行昂贵自回归生成的情况下提供检索决策的特征级解释。
对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试
本文对 Google Embeddings 2 与五个开源模型在多语言稠密检索和 RAG 系统中进行了基准测试,发现 GE2 在准确性上表现最佳但速度较慢,而 mE5-L 作为低延迟的竞争性替代方案。
DiffRetriever:基于扩散语言模型的并行代表性令牌检索
本文介绍了 DiffRetriever,这是一种利用扩散语言模型并行生成多个代表性令牌以实现高效信息检索的方法,在速度和准确率上均优于自回归基线方法。
Auto-Dreamer:语言代理的离线记忆整合学习
Auto-Dreamer 提出了一种针对语言代理的离线记忆整合学习方法,将快速记忆获取与慢速跨会话整合解耦,以更小的记忆库实现更高性能,并泛化到未见环境。
基于检索的多标签法律标注:可扩展、数据高效且无幻觉
本文提出了一种基于检索的多标签法律标注方法,使用冻结的嵌入模型通过k近邻检索标签,实现了有竞争力的准确性、高数据效率,并从根本上消除了标签幻觉。