DREAM：通过自回归建模实现密集检索嵌入

Hugging Face Daily Papers 2026/06/23 00:00 论文

dense-retrieval autoregressive-modeling retrieval embedding nlp self-supervised attention-mechanism

摘要

DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度，从而训练密集检索嵌入，无需标注数据。在不同模型规模下，它在BEIR和RTEB基准测试上始终优于基线。

密集检索嵌入模型是现代基于检索的AI系统的基本组成部分。大多数密集检索器都使用对比目标进行训练，这需要标注的正负文档对，通常成本高昂且难以获取。在这项工作中，我们研究了大语言模型（LLM）的自回归下一个词元预测目标能否为密集检索提供监督。直觉很简单：如果文档包含与查询相关的信息，以该文档为条件应使LLM更容易预测目标输出。一个关键挑战是，下一个词元预测损失是在LLM内部计算的，而检索器是独立的嵌入模型。为了解决这一挑战，我们提出了DREAM（通过自回归建模的密集检索嵌入），它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头中。在训练期间，这些分数决定了在LLM预测目标输出时每个候选文档获得多少注意力。由此产生的预测损失通过注意力机制为检索器训练提供梯度。我们在使用0.5B到3B参数嵌入主干的BEIR和RTEB检索基准上评估了DREAM。DREAM在不同模型规模下始终优于现有基线。这些结果表明，DREAM提供了一种通过自回归建模训练密集检索器的有前景的方法。

查看原文

查看缓存全文

缓存时间: 2026/06/24 05:46

论文页面 - DREAM: Dense Retrieval Embeddings via Autoregressive Modeling

来源：https://huggingface.co/papers/2606.24667 发布于 6 月 23 日

由 https://huggingface.co/yixuantt 提交

yixuan (https://huggingface.co/yixuantt) 于 6 月 24 日

摘要

DREAM 利用自回归语言模型的注意力机制来训练密集检索嵌入，无需标注示例即可监督文档-查询相似度。

密集检索嵌入模型 (https://huggingface.co/papers?q=Dense%20retrieval%20embedding%20models) 是现代基于检索的 AI 系统的基础组件。大多数密集检索器通过对比学习目标 (https://huggingface.co/papers?q=contrastive%20objectives) 进行训练，这需要标注的正、负文档对，而这些标注往往代价高昂且难以获取。在本文中，我们研究了大语言模型（LLM）的自回归下一个 token 预测 (https://huggingface.co/papers?q=next-token%20prediction) 目标能否为密集检索提供监督信号。直觉很简单：如果一个文档包含与查询相关的信息，那么以该文档为条件，LLM 预测目标输出应该更容易。一个关键挑战在于，下一个 token 预测 (https://huggingface.co/papers?q=next-token%20prediction) 的损失在 LLM 内部计算，而检索器是独立的嵌入模型。为解决这一挑战，我们提出了 DREAM（通过自回归建模 (https://huggingface.co/papers?q=Autoregressive%20Modeling) 实现密集检索嵌入），它将在检索器生成的查询-文档相似度 (https://huggingface.co/papers?q=query-document%20similarity) 分数注入到冻结 LLM (https://huggingface.co/papers?q=frozen%20LLM) 的选定注意力头 (https://huggingface.co/papers?q=attention%20heads) 中。在训练过程中，这些分数决定了 LLM 预测目标输出时每个候选文档接收到的注意力大小。由此产生的预测损失通过注意力机制 (https://huggingface.co/papers?q=attention%20mechanism) 为检索器训练提供梯度。我们在检索基准 (https://huggingface.co/papers?q=retrieval%20benchmarks) BEIR (https://huggingface.co/papers?q=BEIR) 和 RTEB (https://huggingface.co/papers?q=RTEB) 上评估了 DREAM，使用了参数规模从 0.5B 到 3B 的嵌入骨干 (https://huggingface.co/papers?q=embedding%20backbones)。DREAM 在不同模型规模下始终优于现有基线。这些结果表明，DREAM 为通过自回归建模 (https://huggingface.co/papers?q=autoregressive%20modeling) 训练密集检索器提供了一种有前景的方法。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24667) 查看 PDF (https://arxiv.org/pdf/2606.24667) GitHub 0 (https://github.com/yixuantt/DREAM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24667)

在您的 agent 中获取这篇论文：

hf papers read 2606.24667

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.24667，以在此页面建立链接。

引用本文的数据集 0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.24667，以在此页面建立链接。

引用本文的 Spaces 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.24667，以在此页面建立链接。

包含本文的收藏集 0

没有收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 中以在此页面建立链接。

DREAM：通过自回归建模实现密集检索嵌入

论文页面 - DREAM: Dense Retrieval Embeddings via Autoregressive Modeling

摘要

引用本文的模型 0

引用本文的数据集 0

引用本文的 Spaces 0

包含本文的收藏集 0

相似文章

Xetrieval: 稠密检索的机械性解释

对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试

DiffRetriever：基于扩散语言模型的并行代表性令牌检索

Auto-Dreamer：语言代理的离线记忆整合学习

基于检索的多标签法律标注：可扩展、数据高效且无幻觉

提交意见反馈