@yifeiwang77: 感谢分享我们的工作 @lateinteraction @sum！这个想法极其简单：- 多向量检索成本高昂……

X AI KOLs Timeline 2026/05/30 07:09 论文

multi-vector-retrieval sparse-coding k-means autoencoders late-interaction information-retrieval

摘要

作者分享了他们通过将k-means用作top-1稀疏编码来降低多向量检索成本的工作。Omar Khattab补充说，在无监督稀疏自编码器上使用神经元级别倒排索引的晚期交互稀疏检索效果很好。

感谢分享我们的工作 @lateinteraction @sum！这个想法极其简单： - 多向量检索成本高昂，通常需要先使用k-means对tokens进行分类； - k-means本质上是一种top-1稀疏编码方法（n维稠密 -> 1维聚类ID），这意味着它

查看原文

查看缓存全文

缓存时间: 2026/05/31 00:52

感谢 @lateinteraction 和 @sum 分享我们的工作！

这个想法非常简单：

Omar Khattab (@lateinteraction): 延迟交互稀疏检索？😁

借助神经元级倒排索引，基于无监督稀疏自编码器。效果远好于直接训练稀疏检索器。

这里汇集了许多巧妙的思路。感谢 @Veritas2026 和 @yifeiwang77 的见解！

相似文章

X AI KOLs Timeline

本文提出了一种使用无监督稀疏自编码器和自然倒排索引的单阶段稀疏编码方法，以加速多向量检索，其效果优于传统的基于k-means的方法。

X AI KOLs Timeline

本文提出单阶段稀疏检索（SSR），用稀疏自编码器和倒排索引替代K-means聚类，实现了15倍的索引加速和一半的检索延迟，同时在BEIR基准上提升了准确性。

X AI KOLs Timeline

一份精选的顶级模型、引擎、库和数据集的列表，用于晚期交互多向量检索，组织在'Awesome Multivector Retrieval'资源中。

X AI KOLs Timeline

研究人员使用经过重构训练的稀疏自编码器，从冻结的密集检索器中提取出可索引且适用于BM25的稀疏特征。

X AI KOLs Following

单向量嵌入模型可用于提取稀疏潜在术语，而BM25可将这一词汇转化为强大的检索器。