dense-retrieval

#dense-retrieval

DREAM：通过自回归建模实现密集检索嵌入

Hugging Face Daily Papers ↗ · 2026-06-23 缓存

DREAM通过利用自回归语言模型的注意力来监督查询-文档相似度，从而训练密集检索嵌入，无需标注数据。在不同模型规模下，它在BEIR和RTEB基准测试上始终优于基线。

0 人收藏 0 人点赞

#dense-retrieval

迷失于单一向量：通过分块证据聚合改进长文档检索

arXiv cs.CL ↗ · 2026-06-18 缓存

本文识别出长文档稠密检索中的文档侧早期压缩这一失败模式，并引入证据稀释指数（EDI）来衡量该问题。作者提出DICE，一种无需训练的方法，将文档分割成块，独立编码，然后聚合为单一向量，显著改进了长文档的检索效果。

0 人收藏 0 人点赞

#dense-retrieval

MCompassRAG：主题元数据作为段落级检索的语义指南针

arXiv cs.CL ↗ · 2026-06-18 缓存

MCompassRAG 通过用主题元数据丰富文本块表示，并利用 LLM 教师蒸馏来增强检索增强生成，在信息效率上平均提升 8.24%，同时延迟比强基线低 5 倍以上。

0 人收藏 0 人点赞

#dense-retrieval

ECI_{sem}: 语义残差有效对比信息用于评估难负样本

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

ECI_sem是一种无需训练的方法，通过使用冻结的嵌入对密集检索中的难负样本源进行排序，在MS MARCO和BEIR基准上取得了强性能。

0 人收藏 0 人点赞

#dense-retrieval

@raphaelsrty: 我们的LateOn模型以1.4亿参数取得了强劲结果。与LateOn无关，我对正…

X AI KOLs Following ↗ · 2026-05-30 缓存

拥有1.4亿参数的LateOn模型取得了强劲结果，社区对多向量模型的进展感到兴奋，包括新的CPU索引和多语言支持。

0 人收藏 0 人点赞

#dense-retrieval

@_reachsumit: Latent Terms: 密集检索器包含可轻松提取的BM25就绪齐普夫词汇表 @bclavie 等人提取中…

X AI KOLs Following ↗ · 2026-05-29 缓存

该论文提出 Latent Terms 方法，使用稀疏自编码器从冻结的密集检索器中提取BM25就绪的稀疏特征，无需检索特定训练即可实现有竞争力的性能。

0 人收藏 0 人点赞

#dense-retrieval

CoHyDE：面向工具检索的LLM改写器与稠密编码器迭代协同训练

arXiv cs.AI ↗ · 2026-05-29 缓存

CoHyDE提出了一种LLM改写器与稠密编码器的迭代协同训练过程，以提升从大型API目录中的工具检索性能。通过使用InfoNCE和DPO联合训练两个组件，它在模糊查询上显著优于单一组件基线。

0 人收藏 0 人点赞

#dense-retrieval

Xetrieval: 稠密检索的机械性解释

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

Xetrieval 是一个机械性框架，通过用推理信息增强句子嵌入并将其分解为可解释的稀疏特征来解释稠密检索，从而在不进行昂贵自回归生成的情况下提供检索决策的特征级解释。

0 人收藏 0 人点赞

#dense-retrieval

对 Google Embeddings 2 与开源模型在多语言稠密检索和 RAG 系统中的基准测试

arXiv cs.CL ↗ · 2026-05-25 缓存

本文对 Google Embeddings 2 与五个开源模型在多语言稠密检索和 RAG 系统中进行了基准测试，发现 GE2 在准确性上表现最佳但速度较慢，而 mE5-L 作为低延迟的竞争性替代方案。

0 人收藏 0 人点赞

#dense-retrieval

@raphaelsrty：今天我们开源 LateOn 与 DenseOn，两款 149 M 参数的开放检索模型

X AI KOLs Following ↗ · 2026-04-21 缓存

Raphael 开源两款检索模型：LateOn（ColBERT 多向量）与 DenseOn（单向量），均 149 M 参数，在 BEIR 上超越体量 4 倍的大模型。

0 人收藏 0 人点赞

#dense-retrieval

密集段落检索中嵌入压缩的谱调整方法

arXiv cs.CL ↗ · 2026-04-20 缓存

谱调整（SpecTemp）提出了一种无需学习的密集段落检索嵌入压缩方法，该方法基于信噪比分析自适应地确定最优的谱缩放系数，性能优于PCA和白化等固定超参数方法。

0 人收藏 0 人点赞

#dense-retrieval

@lateinteraction: 主题演讲录像现已上传至 YouTube，供所有要求我们在 X 平台以外托管的用户观看。https://youtube.com/watch?v=Z2…

X AI KOLs Timeline ↗ · 2026-04-13 缓存

一场主题演讲认为，后期交互检索（如 ColBERT 风格）是 AI 规模信息检索研究中最具前景的方向，并指出单向量密集检索存在根本性缺陷，呼吁信息检索社区大幅提升研究雄心。演讲引入 LIMIT 基准测试，作为密集检索泛化能力不足的佐证，并呼吁在 2030 年前实现范式转变。

0 人收藏 0 人点赞

dense-retrieval

提交意见反馈