标签
本文指出词汇差距是导致ModernBERT等先进编码器在学习型稀疏检索中表现不佳的根本原因,并提出词汇迁移(VT)这一模型无关框架,将编码器迁移至稀疏友好的词汇表,在BEIR基准测试上取得最优结果。
本文介绍了 DiffRetriever,这是一种利用扩散语言模型并行生成多个代表性令牌以实现高效信息检索的方法,在速度和准确率上均优于自回归基线方法。