@yifeiwang77: 感谢分享我们的工作 @lateinteraction @sum!这个想法极其简单:- 多向量检索成本高昂……
摘要
作者分享了他们通过将k-means用作top-1稀疏编码来降低多向量检索成本的工作。Omar Khattab补充说,在无监督稀疏自编码器上使用神经元级别倒排索引的晚期交互稀疏检索效果很好。
感谢分享我们的工作 @lateinteraction @sum!
这个想法极其简单:
- 多向量检索成本高昂,通常需要先使用k-means对tokens进行分类;
- k-means本质上是一种top-1稀疏编码方法(n维稠密 -> 1维聚类ID),这意味着它
查看缓存全文
缓存时间: 2026/05/31 00:52
感谢 @lateinteraction 和 @sum 分享我们的工作!
这个想法非常简单:
- 多向量检索成本太高,通常需要先通过 k-means 对 token 进行分类;
- k-means 本质上是一种 top-1 稀疏编码方法(n 维稠密 → 1 维簇 ID),这意味着它
Omar Khattab (@lateinteraction): 延迟交互稀疏检索?😁
借助神经元级倒排索引,基于无监督稀疏自编码器。效果远好于直接训练稀疏检索器。
这里汇集了许多巧妙的思路。感谢 @Veritas2026 和 @yifeiwang77 的见解!
相似文章
@lateinteraction: Late-interaction稀疏检索?利用神经元级倒排索引,基于无监督稀疏自编码器。效果更佳…
本文提出了一种使用无监督稀疏自编码器和自然倒排索引的单阶段稀疏编码方法,以加速多向量检索,其效果优于传统的基于k-means的方法。
@_reachsumit: 告别K-means:单阶段稀疏编码实现高效多向量检索 @Veritas2026 等人替代向量聚…
本文提出单阶段稀疏检索(SSR),用稀疏自编码器和倒排索引替代K-means聚类,实现了15倍的索引加速和一半的检索延迟,同时在BEIR基准上提升了准确性。
@SilvioMartinico: 晚期交互多向量检索生态系统正在爆炸式发展。为了帮助区分信号与噪声……
一份精选的顶级模型、引擎、库和数据集的列表,用于晚期交互多向量检索,组织在'Awesome Multivector Retrieval'资源中。
@bclavie: 非常兴奋终于能分享这个,已经藏着太久了!现在它非常应景。博客文章很快就会…
研究人员使用经过重构训练的稀疏自编码器,从冻结的密集检索器中提取出可索引且适用于BM25的稀疏特征。
@mixedbreadai:到如今,所有人都知道单向量嵌入模型对现代工作流极为有限。但它们包含更多…
单向量嵌入模型可用于提取稀疏潜在术语,而BM25可将这一词汇转化为强大的检索器。