标签
本文指出词汇差距是导致ModernBERT等先进编码器在学习型稀疏检索中表现不佳的根本原因,并提出词汇迁移(VT)这一模型无关框架,将编码器迁移至稀疏友好的词汇表,在BEIR基准测试上取得最优结果。
本文提出了一种使用无监督稀疏自编码器和自然倒排索引的单阶段稀疏编码方法,以加速多向量检索,其效果优于传统的基于k-means的方法。
该论文提出 Latent Terms 方法,使用稀疏自编码器从冻结的密集检索器中提取BM25就绪的稀疏特征,无需检索特定训练即可实现有竞争力的性能。