标签
DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度,从而训练密集检索嵌入,无需标注数据。在不同模型规模下,它在BEIR和RTEB基准测试上始终优于基线。
本文识别出长文档稠密检索中的文档侧早期压缩这一失败模式,并引入证据稀释指数(EDI)来衡量该问题。作者提出DICE,一种无需训练的方法,将文档分割成块,独立编码,然后聚合为单一向量,显著改进了长文档的检索效果。
MCompassRAG 通过用主题元数据丰富文本块表示,并利用 LLM 教师蒸馏来增强检索增强生成,在信息效率上平均提升 8.24%,同时延迟比强基线低 5 倍以上。
ECI_sem是一种无需训练的方法,通过使用冻结的嵌入对密集检索中的难负样本源进行排序,在MS MARCO和BEIR基准上取得了强性能。
拥有1.4亿参数的LateOn模型取得了强劲结果,社区对多向量模型的进展感到兴奋,包括新的CPU索引和多语言支持。
该论文提出 Latent Terms 方法,使用稀疏自编码器从冻结的密集检索器中提取BM25就绪的稀疏特征,无需检索特定训练即可实现有竞争力的性能。
CoHyDE提出了一种LLM改写器与稠密编码器的迭代协同训练过程,以提升从大型API目录中的工具检索性能。通过使用InfoNCE和DPO联合训练两个组件,它在模糊查询上显著优于单一组件基线。
Xetrieval 是一个机械性框架,通过用推理信息增强句子嵌入并将其分解为可解释的稀疏特征来解释稠密检索,从而在不进行昂贵自回归生成的情况下提供检索决策的特征级解释。
本文对 Google Embeddings 2 与五个开源模型在多语言稠密检索和 RAG 系统中进行了基准测试,发现 GE2 在准确性上表现最佳但速度较慢,而 mE5-L 作为低延迟的竞争性替代方案。
Raphael 开源两款检索模型:LateOn(ColBERT 多向量)与 DenseOn(单向量),均 149 M 参数,在 BEIR 上超越体量 4 倍的大模型。
谱调整(SpecTemp)提出了一种无需学习的密集段落检索嵌入压缩方法,该方法基于信噪比分析自适应地确定最优的谱缩放系数,性能优于PCA和白化等固定超参数方法。
一场主题演讲认为,后期交互检索(如 ColBERT 风格)是 AI 规模信息检索研究中最具前景的方向,并指出单向量密集检索存在根本性缺陷,呼吁信息检索社区大幅提升研究雄心。演讲引入 LIMIT 基准测试,作为密集检索泛化能力不足的佐证,并呼吁在 2030 年前实现范式转变。