@yifeiwang77: 感谢分享我们的工作 @lateinteraction @sum!这个想法极其简单:- 多向量检索成本高昂……

X AI KOLs Timeline 论文

摘要

作者分享了他们通过将k-means用作top-1稀疏编码来降低多向量检索成本的工作。Omar Khattab补充说,在无监督稀疏自编码器上使用神经元级别倒排索引的晚期交互稀疏检索效果很好。

感谢分享我们的工作 @lateinteraction @sum! 这个想法极其简单: - 多向量检索成本高昂,通常需要先使用k-means对tokens进行分类; - k-means本质上是一种top-1稀疏编码方法(n维稠密 -> 1维聚类ID),这意味着它
查看原文
查看缓存全文

缓存时间: 2026/05/31 00:52

感谢 @lateinteraction 和 @sum 分享我们的工作!

这个想法非常简单:

  • 多向量检索成本太高,通常需要先通过 k-means 对 token 进行分类;
  • k-means 本质上是一种 top-1 稀疏编码方法(n 维稠密 → 1 维簇 ID),这意味着它

Omar Khattab (@lateinteraction): 延迟交互稀疏检索?😁

借助神经元级倒排索引,基于无监督稀疏自编码器。效果远好于直接训练稀疏检索器。

这里汇集了许多巧妙的思路。感谢 @Veritas2026 和 @yifeiwang77 的见解!

相似文章