密集检索器中的位置偏差是内建的还是从数据中学习到的?

Hugging Face Daily Papers 论文

摘要

本文研究了密集检索器中位置偏差的来源是架构还是训练数据,发现训练数据分布强烈影响偏差,而均衡训练可将敏感性降低高达87%,同时保持检索性能。

密集检索器表现出位置偏差,即倾向于将查询相关信息出现在文档开头的结果排在前面,而当相关信息出现在后面时,检索性能会下降。以往关于密集检索器中位置偏差的研究主要集中于架构层面的解释,而本文则探讨了训练数据中证据的位置分布如何影响检索层面的偏差方向。为此,我们构建了合成的位置定向训练集,使查询相关证据分别出现在文档的开头、中间或结尾,并在位置偏斜和均衡的两种训练分布下对八个架构各异的预训练模型进行微调。在排序层面,我们观察到所有被检模型都存在强烈的方向性模式:偏斜的训练分布会偏向相应位置的证据。在位置感知基准测试中,位置均衡训练将位置敏感性降低了57-87%,且在受控设置下保持了具有竞争力的平均检索性能。进一步的表示层分析表明,微调通常能够重塑学习到的位置偏好,尽管部分模型中仍然存在预先存在的架构或预训练相关的倾向。这些结果揭示了训练位置分布是检索层面位置偏差的一个主要可控因素,并提出了均衡数据整理作为实用的缓解策略。
查看原文
查看缓存全文

缓存时间: 2026/05/29 07:00

论文页面 - 密集检索器中的位置偏差是内在结构所致还是从数据中习得?

来源:https://huggingface.co/papers/2605.26578

摘要

训练数据中证据的位置分布显著影响密集检索器的位置偏差,均衡训练可将敏感性降低高达87%,同时保持有竞争力的检索性能。

密集检索器(https://huggingface.co/papers?q=Dense%20retrievers)表现出位置偏差(https://huggingface.co/papers?q=positional%20bias),即倾向于将查询相关信息(https://huggingface.co/papers?q=query-relevant%20information)出现在文档开头的文档排在前面,而当相关信息出现在靠后位置时,检索性能(https://huggingface.co/papers?q=retrieval%20performance)会下降。先前关于密集检索器(https://huggingface.co/papers?q=dense%20retrievers)中位置偏差(https://huggingface.co/papers?q=positional%20bias)的研究主要关注架构层面的解释,而我们则研究训练数据中证据的位置分布如何影响检索层面的偏差方向。为了验证这一点,我们构建了合成的位置定向训练集,其中查询相关证据分别出现在文档的开头、中间或结尾,并在位置倾斜和均衡的训练分布下微调了八个架构多样的预训练模型(https://huggingface.co/papers?q=pretrained%20models)。在排序层面,我们在所有考察的模型中观察到强烈的方向性模式:倾斜的训练分布 favoring 相应位置的证据。位置均衡训练(https://huggingface.co/papers?q=Position-balanced%20training)在位置感知基准测试中将位置敏感性降低了57-87%,同时在我们控制的设置下保持了有竞争力的平均检索性能(https://huggingface.co/papers?q=retrieval%20performance)。表示层面的分析进一步表明,微调(https://huggingface.co/papers?q=fine-tuning)往往会重塑习得的位置偏好,尽管某些模型中预先存在的架构或预训练特有的倾向仍然存在。这些结果将训练位置分布确定为检索层面位置偏差的一个主要可控因素,并建议将均衡数据整理作为一种实用的缓解策略。

查看 arXiv 页面(https://arxiv.org/abs/2605.26578) 查看 PDF(https://arxiv.org/pdf/2605.26578) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26578)

在你的 agent 中获取这篇论文:

hf papers read 2605\.26578

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.26578 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.26578 以从此页面链接。

引用该论文的空间0

没有空间链接此论文

在空间 README.md 中引用 arxiv.org/abs/2605.26578 以从此页面链接。

包含该论文的收藏0

没有收藏包含此论文

将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

思考越多,偏见越大:推理模型中由长度驱动的位置偏见

arXiv cs.AI

本研究论文探讨了推理模型中的位置偏见,发现偏见并非随着“更多思考”而消除,而是与推理轨迹的长度成正比。该研究提供了因果证据,并提供了一套诊断工具包,用于审核多选问答评估中这种由长度驱动的偏见。

人口统计偏差对皮肤病变分类的影响

arXiv cs.AI

本文研究了人口统计偏差(性别和年龄)对使用ResNet模型进行皮肤病变分类的影响,发现性别偏差源于数据不平衡,而年龄偏差则始终偏向较年轻群体,并评估了多任务学习和对抗性学习的缓解策略。