标签
研究人员使用经过重构训练的稀疏自编码器,从冻结的密集检索器中提取出可索引且适用于BM25的稀疏特征。
本文研究了密集检索器中位置偏差的来源是架构还是训练数据,发现训练数据分布强烈影响偏差,而均衡训练可将敏感性降低高达87%,同时保持检索性能。