密集检索器中的位置偏差是内建的还是从数据中学习到的?
摘要
本文研究了密集检索器中位置偏差的来源是架构还是训练数据,发现训练数据分布强烈影响偏差,而均衡训练可将敏感性降低高达87%,同时保持检索性能。
查看缓存全文
缓存时间: 2026/05/29 07:00
论文页面 - 密集检索器中的位置偏差是内在结构所致还是从数据中习得?
来源:https://huggingface.co/papers/2605.26578
摘要
训练数据中证据的位置分布显著影响密集检索器的位置偏差,均衡训练可将敏感性降低高达87%,同时保持有竞争力的检索性能。
密集检索器(https://huggingface.co/papers?q=Dense%20retrievers)表现出位置偏差(https://huggingface.co/papers?q=positional%20bias),即倾向于将查询相关信息(https://huggingface.co/papers?q=query-relevant%20information)出现在文档开头的文档排在前面,而当相关信息出现在靠后位置时,检索性能(https://huggingface.co/papers?q=retrieval%20performance)会下降。先前关于密集检索器(https://huggingface.co/papers?q=dense%20retrievers)中位置偏差(https://huggingface.co/papers?q=positional%20bias)的研究主要关注架构层面的解释,而我们则研究训练数据中证据的位置分布如何影响检索层面的偏差方向。为了验证这一点,我们构建了合成的位置定向训练集,其中查询相关证据分别出现在文档的开头、中间或结尾,并在位置倾斜和均衡的训练分布下微调了八个架构多样的预训练模型(https://huggingface.co/papers?q=pretrained%20models)。在排序层面,我们在所有考察的模型中观察到强烈的方向性模式:倾斜的训练分布 favoring 相应位置的证据。位置均衡训练(https://huggingface.co/papers?q=Position-balanced%20training)在位置感知基准测试中将位置敏感性降低了57-87%,同时在我们控制的设置下保持了有竞争力的平均检索性能(https://huggingface.co/papers?q=retrieval%20performance)。表示层面的分析进一步表明,微调(https://huggingface.co/papers?q=fine-tuning)往往会重塑习得的位置偏好,尽管某些模型中预先存在的架构或预训练特有的倾向仍然存在。这些结果将训练位置分布确定为检索层面位置偏差的一个主要可控因素,并建议将均衡数据整理作为一种实用的缓解策略。
查看 arXiv 页面(https://arxiv.org/abs/2605.26578) 查看 PDF(https://arxiv.org/pdf/2605.26578) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26578)
在你的 agent 中获取这篇论文:
hf papers read 2605\.26578
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.26578 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.26578 以从此页面链接。
引用该论文的空间0
没有空间链接此论文
在空间 README.md 中引用 arxiv.org/abs/2605.26578 以从此页面链接。
包含该论文的收藏0
没有收藏包含此论文
将此论文添加到收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
思考越多,偏见越大:推理模型中由长度驱动的位置偏见
本研究论文探讨了推理模型中的位置偏见,发现偏见并非随着“更多思考”而消除,而是与推理轨迹的长度成正比。该研究提供了因果证据,并提供了一套诊断工具包,用于审核多选问答评估中这种由长度驱动的偏见。
基于大模型的稠密检索器鲁棒性研究:泛化性与稳定性系统分析
系统研究表明,基于大模型的稠密检索器在拼写错误和投毒攻击上优于 BERT 基线,但仍易受语义扰动影响,其嵌入几何形态可预测鲁棒性。
@_reachsumit: OBLIQ-Bench: 揭示现代检索器中因潜在和隐式查询而被忽视的瓶颈 @dianetc_ 等人提出…
OBLIQ-Bench 是一个新的基准测试,揭示了当前检索系统在处理需要潜在或隐式推理的间接查询时的弱点,表明即使复杂的检索流程也无法提供相关文档,而这些文档是推理型大语言模型容易验证的。
量化破坏对齐:压缩大语言模型中偏见在不同模型与精度下的涌现
本文研究了训练后量化如何在指令调优的大语言模型中引入新偏见,发现3位精度导致6-21%之前无偏见的项目发展出刻板印象,而像困惑度这样的标准指标未能检测到这种退化。
人口统计偏差对皮肤病变分类的影响
本文研究了人口统计偏差(性别和年龄)对使用ResNet模型进行皮肤病变分类的影响,发现性别偏差源于数据不平衡,而年龄偏差则始终偏向较年轻群体,并评估了多任务学习和对抗性学习的缓解策略。